CN114647627A - 基于数据属性对数据集进行排序 - Google Patents

基于数据属性对数据集进行排序 Download PDF

Info

Publication number
CN114647627A
CN114647627A CN202111423989.3A CN202111423989A CN114647627A CN 114647627 A CN114647627 A CN 114647627A CN 202111423989 A CN202111423989 A CN 202111423989A CN 114647627 A CN114647627 A CN 114647627A
Authority
CN
China
Prior art keywords
data
computer
dataset
target
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111423989.3A
Other languages
English (en)
Inventor
M·S·索迪
K·卡纳
P·艾扬格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN114647627A publication Critical patent/CN114647627A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/22Arrangements for sorting or merging computer data on continuous record carriers, e.g. tape, drum, disc
    • G06F7/24Sorting, i.e. extracting data from one or more carriers, rearranging the data in numerical or other ordered sequence, and rerecording the sorted data on the original carrier or on a different carrier or set of carriers sorting methods in general
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/06Arrangements for sorting, selecting, merging, or comparing data on individual record carriers
    • G06F7/08Sorting, i.e. grouping record carriers in numerical or other ordered sequence according to the classification of at least some of the information they carry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0203Market surveys; Market polls

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Databases & Information Systems (AREA)
  • Accounting & Taxation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Game Theory and Decision Science (AREA)
  • Human Computer Interaction (AREA)
  • Educational Administration (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

使用计算机对一组数据集进行排序包括根据指示用户数据字段偏好的过程文档集合确定目标数据字段集合。来自数据使用文档集合的目标数据集属性集合指示用户数据范围偏好。由计算机确定具有超过预先确定的适合性阈值的值的字段适合性值的相关联的多个数据集的多个元数据集。FSV表示与所述数据集相关联的字段集合和目标数据字段集合之间的相似度的程度。计算机评估关于目标属性的元数据集合,并且针对每个候选数据集生成比较属性得分。指示相关联的数据集将具有展示所述目标数据集属性的内容的可能性程度。计算机候选数据集基于比较属性得分。

Description

基于数据属性对数据集进行排序
技术领域
本发明一般涉及数据集分析领域,尤其涉及计算机数据集评估。
背景技术
数据集是可以由各种计算机系统使用以提供关于许多真实世界和模拟情况的问题的答案的数据组。通常,数据集包括关于过去事务的信息或其他历史信息,根据这些信息可以进行关于类似的当前和未来事务的预测。在一些领域中,数据集由用户系统作为系统操作的副产品产生并保持将来的使用。在其他域中,数据集,尤其是大的或定制的数据集,可以由第三方向用户收费提供。人工智能(AI)系统可以标识数据集中包含的数据内的模式,以揭示通常难以以其它方式预测的趋势。由于数据集可以在内容方面广泛地变化,所以一些数据集将比其他数据集对某些用户更有用。
数据集的值可以随使用情况而变化。如果数据的预期使用是已知的,则可以评估数据集的价值并且对评估的数据集进行排序。
发明内容
根据一个实施例,一种根据数据集属性对多个数据集进行排序的计算机实现的方法包括:由计算机从过程文档集合中标识目标数据字段集合,过程文档指示用户的数据字段偏好。计算机从数据使用文档集合中标识目标数据集属性集合,并且数据使用文档指示用户的数据范围偏好。计算机针对相关联的多个数据集生成一组元数据集。计算机确定具有超过预先确定的适合性阈值的值的字段适合性值的候选数据集,并且字段适合性值表示与所述数据集相关联的字段集合和目标数据字段集合之间的相似度的程度。计算机关于目标属性评估每个候选数据集的相关联的元数据集。计算机针对每个候选数据集生成比较属性得分,比较属性得分指示相关联的数据集将具有展示所述目标数据集属性的内容的可能性的程度。计算机生成由比较属性得分排序的所述候选数据集的列表。
根据本发明的方面,数据使用文档包括从由业务过程执行语言(BEPL)和统一建模语言(UML)组成的列表中选择的格式的信息。
根据本发明的方面,从所述过程文档的元素中提取数据目标属性,所述元素是从由类图、活动图、序列图和组件图组成的列表中选择的。根据本发明的方面,具有最高比较属性得分的候选数据集被指定为选择的数据集。根据本发明的方面,建立用于将在所述选择的数据集上进行的搜索参数集;以及利用表示搜索参数的方面的搜索上下文值来更新与被选择用于进行搜索的数据集相关联的元数据集中的历史使用字段。根据本发明的方面,排序至少部分基于历史使用字段值。根据本发明的方面,比较属性得分至少部分地基于与所述目标数据集属性中的每个目标数据集属性相关联的合意性值。根据本发明的方面,元数据集合包括从由以下各项组成的列表中选择的信息:域、性别、年龄组、地理分布、人口统计分布、数值的统计极差以及适用性的上下文。
根据另一实施例,一种对多个数据集进行排序的系统,包括:一种计算机系统,包括计算机可读存储介质,所述计算机可读存储介质具有随其体现的程序指令,所述程序指令能够由计算机执行以使所述计算机:从过程文档集合中标识目标数据字段集合,所述过程文档指示用户的数据字段偏好;从数据使用文档集合中标识目标数据集属性集合,所述数据使用文档指示所述用户的数据范围偏好;生成针对相关联的多个数据集的多个元数据集;确定具有超过预先确定的适合性阈值的值的字段适合性值的候选数据集,所述字段适合性值表示与所述数据集相关联的字段集合和所述目标数据字段集合之间的相似度的程度;关于所述目标属性评估每个候选数据集的所述关联元数据集,并且由所述计算机生成每个候选数据集的比较属性得分,所述比较属性得分指示相关联的数据集将具有展示所述目标数据集属性的内容的可能性的程度;以及生成根据所述比较属性得分排序的所述候选数据集的列表。
根据另一实施例,一种对多个数据集进行排序的计算机程序产品,所述计算机程序产品包括计算机可读存储介质,所述计算机可读存储介质具有随其体现的程序指令,所述程序指令可由计算机执行以使所述计算机:使用计算机从过程文档集合中标识指示用户的数据字段偏好的数据目标属性集合;使用所述计算机从指示所述用户的数据范围偏好的数据使用文档集合中标识数据集目标属性集合;使用所述计算机针对相关联的多个数据集生成多个元数据集;使用所述计算机确定具有超过预先确定的适合性阈值的值的字段适合性值的前k个候选数据集;使用所述计算机关于目标属性评估每个候选数据集的相关联的元数据集,并且由所述计算机生成每个候选数据集的比较属性得分;以及使用所述计算机至少部分地基于所述比较属性得分对所述候选数据集进行排序。
给定数据集的值可以基于各种因素,包括数据集记录字段内容和所包含的信息的范围。例如,许多数据分析系统需要某些种类的信息(例如,某些字段)以便提供有意义的输出,并且具有更大量的合适信息(例如,更高数目的期望数据字段)的数据集优于具有更少所需数据字段的数据集。类似地,数据分析系统需要适合于呈现给系统的问题的数据,以便提供有意义的输出,并且给定数据集与预期使用范围(例如,要询问的预期问题)越相关,数据集值越高。
本发明的方面匹配用户的数据要求(包括目标数据字段和目标数据集属性),包括具有业务应用的那些用户的数据要求应当与从数据集中的数据导出的元数据匹配。根据本发明的各方面,元数据应表示数据集内容,描述数据内容人口统计和数据内容的统计特性。
本发明的方面通过各种方法将数据的领域与含义相关联,包括本体使用和键值对使用。
本发明的方面首先基于目标数据集需求及其与元数据的匹配来选择一组提供数据集的分数,通过该组分数,企业可以评估哪个数据集更适合其要求。
根据本发明的各方面,导出元数据包括:统计特性(例如,分布类型、均值、方差和相关特性、任何相关性;以及其是否具有时间序列数据);各种字段和它们的相关含义/语义(例如,在贷款核准数据集中,“配偶”类似于“妻子”和“丈夫”);如果“CSV”文件和相关联的模式是已知的,则适合于该模式的各种含义(例如,与打开新营销渠道相关的字段可能具有与用于标识与体育事件相关联的字段的类似命名的字段不同的某些含义)可以被记录为元数据;当根据由所标识的个人的同意和许可授予使用时,个人可标识信息(例如,电子邮件、电话号码、地址/联系人细节);与先前数据集使用相关的字段(例如,经由数据集使用的历史挖掘并标识它所使用的其它数据集);导出的元数据还包括关于内容表示的信息,如域、性别、年龄组、地理分布(这可指示某一年龄组、银行域或某一区域等适用)。
本发明的方面基于数据集内容(例如,由数据集元数据表征的)确定数据集的值。根据本发明的方面,元数据包括指示数据集的基于内容的特点的描述性信息。本发明的方面标识了业务的数据需求。本发明的方面基于每个元数据的属性和范围值及其值的范围来对数据集进行排序并且提供相关性得分。本发明的方面制定并导出了用于基于业务要求和数据内容来确定数据集的值的系统方法。本发明的方面使用该得分并且导出元数据的每个小方面的排序。本发明的方面使用数据集值来相对于业务需求比较两个数据集。本发明的方面实现了基于数据内容的数据集搜索机制。本发明的方面使用不同上下文中的数据使用的历史来生成元数据,并且在进行搜索事件时使用它们来标识业务上下文。本发明的方面基于业务需求集合的输入来搜索数据集的语料库;并且根据适合性的最佳匹配结果对结果进行排序。根据本发明的方面,目标数据字段(例如,支持所需业务过程的数据字段)通过使用标准格式(例如,可以提供可提取活动、行动者、排序/序列的业务过程执行语言(BPEL)、以及提供相关软件工程人工制品的图的统一建模语言(UML))的各种图来定义。根据本发明的方面,UML文档可以包括提供类图、活动图、序列图和组件图。
根据本发明的方面,来自BPEL图的活动可以与UML活动图匹配,并且用于提取类级别组件。根据本发明的方面,类级别组件可以给出字段的所有需求。
本发明的方面可以导出业务需求。本发明的方面可评估数据集和元数据。本发明的方面可以对数据集、数据值和数据小方面进行排序。本发明的方面可以帮助使用问卷(或指示数据要求的其他数据使用文档)来确定给定数据集是否与提供关于如何为企业打开移动或在线商务渠道的信息相关。
由于具有带有一些属性的内容的数据集可能比其他数据集更有用,所以系统的方面(包括例如用户数据需求问卷和其他数据使用文档)帮助我们将用户需要什么标识为内容。本发明的方面标识数据的相关上下文,指示哪些数据集将是用于各种用户目标(例如,使用优惠券来投放新茶产品等)的良好匹配。
根据本发明的一些方面,PDAM包括定位活动图和类图定位符的“发现单元”。根据本发明的一些方面,PDAM包括实体提取器和活动提取器。
根据本发明的一些方面,术语属性可以与单词小方面互换使用。根据本发明的方面,CAAM包括本体映射引擎。根据本发明的方面,CAAM包括确定数据集是否匹配业务需求的方面。根据本发明的方面,HULUM 124包括数据使用元数据提取器和数据集历史使用日志,其指示历史数据集使用并标识与其一起使用选择的数据集的其它数据集。
附图说明
本发明的这些和其它目的、特征和优点将从以下结合附图阅读的对其说明性实施例的详细描述中变得明显。附图的各种特征不是按比例的,因为为了清楚起见,图示是为了帮助本领域技术人员结合详细描述理解本发明。附图如下所示:
图1是示出了根据本发明的实施例的用于根据数据集内容和期望的数据属性对多个数据集进行排序的计算机实现的方法的系统的概览的示意性框图。
图2是示出了根据本发明的用于对多个数据集进行排序的计算机实现的方法的系统的方法(使用如图1所示的系统实现)的流程图。
图3A是图1所示系统的方面的备选视图。
图3B是根据本发明的实施例的用于提供经排序的数据集的集合的如图1所示的系统的方面的示意性表示。
图4是图1所示系统的示意性概览,其中该系统的方面被布置为多个阶段。
图5是图1所示的系统的备选视图,其中该系统的方面根据包括方法和相关细节的列表的工作流轮廓来安排。
图6是根据本发明的实施例生成的“datavalue”条目和“dataranking”条目的方面的示意性表示。
图7是根据本发明的实施例的示例性业务数据使用问卷和相关的样本答案。
图8是示出根据本公开的实施例的计算机系统的示意性框图,该计算机系统可以全部或部分地并入图1所示的一个或多个计算机或设备中,并且与图1所示的系统和方法协作。
图9示出了根据本发明实施例的云计算环境。
图10示出了根据本发明实施例的抽象模型层。
具体实施方式
提供参考附图的以下描述以帮助全面理解如由权利要求书及其等效物界定的本发明的示范性实施例。它包括各种具体细节以帮助理解,但是这些细节应被认为仅仅是示例性的。因此,本领域的普通技术人员将认识到,在不脱离本发明的范围和精神的情况下,可以对本文所述的实施例进行各种改变和修改。另外,为了清楚和简明,可以省略对公知功能和结构的描述。
在以下说明书和权利要求书中使用的术语和词语不限于书目含义,而仅仅用于使得能够清楚和一致地理解本发明。因此,对于本领域技术人员来说,很明显,本发明的示例性实施例的下列描述仅是为了说明的目的,而不是为了限制由所附权利要求及其等同物所限定的本发明。
应当理解,单数形式“一”、“一个”和“该”包括复数指代物,除非上下文另外清楚地指明。因此,例如,提及“一个参与者”包括提及一个或多个这样的参与者,除非上下文另外清楚地指明。
现在结合参考附图,并特别参考图1和图2,概览用于计算机实现的方法的系统100,该方法根据数据集内容对多个数据集进行排序,该方法由具有可选地共享存储装置104的服务器计算机102执行。继续参考图1,服务器计算机与指示期望数据集数据字段的过程文档106(例如,BPEL、UML图等)的源通信。服务器计算机102包括过程文档分析模块(PDAM)112,其使用已知的UML处理和评估工具(包括图表标识符和其他类似的UML内容提取器)和BPEL读取器来检查和挖掘文档以标识目标数据字段。这些目标数据字段提供关于与给定用户的需要最兼容的数据格式的信息。作为示例,用户可以提供以业务过程执行语言(BPEL)编写的文档,并且这种格式的文档可以指示对于用户的业务的操作重要的各种活动、参与者和过程序列,并且可以提取这些方面以帮助理解用户的数据需要。作为另一示例,用户可以提供使用统一建模语言(UML)或类似建模语言来呈现的文档,并且这种格式的文档可以提供关于对用户的处理系统的操作重要的软件人工制品的洞察,包括类图、活动图和序列图。来自BPEL文档的活动可以与UML图匹配,并且用于提取用户系统的类级别组件。服务器计算机102使用所提取的类级别组件来确定数据字段需求。
服务器计算机102还与指示期望的数据集属性的数据使用文档108(例如,诸如数据要求问卷)的源通信。服务器计算机102还与一个或多个数据集110的源通信。
服务器计算机102包括数据使用文档分析模块(DUDAM)114以评估数据使用文档来标识目标数据集属性。用户可以以各种方式(例如,通过详细的问卷回答、提供预期问题组、指定感兴趣的主题等)提供关于预期数据使用的信息,并且该信息指示什么范围的数据内容将与用户的需要最兼容。根据本发明的方面,该信息提供关于业务需求的输入,使得当在各种数据集中遇到匹配数据内容时,可以这样标识该匹配数据内容。例如,如果用户想要获得关于在给定地区中营销特定产品的洞察,则包含关于该地区中该产品的销售的信息的数据集将可能比仅包括该不同地区中该产品的销售信息的数据集更有价值。根据本发明的方面,关于产品的一般销售信息对该用户也可能是有价值的,并且用户数据使用要求查询可以被结构化以收集该级别的细节。根据本发明的各方面,可以从用户收集关于数据范围的各种各样的偏好,以便训练系统100关于用户数据使用偏好。
服务器计算机102包括元数据生成模块(MGM)116,其使用(例如,本体引擎、统计数据处理器或类似的已知工具)来提取和生成数据集属性标识元数据。例如,服务器计算机102可以使用包括关于域的机器可读语句(例如,描述各种域概念及其之间的关系)的域特定本体来为给定数据集中的字段指定含义。MGM 116还可以接收指示字段含义的简单键值对。根据本领域技术人员的判断选择的其它含义分配方案也是足够的。所生成的元数据可以包括关于包含在给定数据集中的数据的多种有用信息。导出的元数据例如可以包括数据的统计特性,例如所包含的分布类型、均值、数据值方差。导出的元数据还可以包括时间序列数据和其它类似的以及各种其它数据字段相关性的指示。根据本发明的方面,导出的元数据还可以包括关于数据先前如何被使用以及它支持什么其它查询的信息(如通过已知的数据挖掘技术导出的)。导出的元数据还可以(当确认肯定的原始内容提供者同意时)提供个人可标识的信息,根据所提供的确认的同意,该个人可标识的信息可以用于产品的营销和打开新的营销渠道或以其他方式允许。导出的元数据可以包括关于在数据内发现的内容人口统计学表示的信息,包括主题领域、以及聚集的性别、年龄组、地理分布等。给定数据集的导出元数据呈现数据集内容的概要,并提供数据集非常适合的数据使用的指示。例如,导出的元数据可以指示给定数据集非常适合于回答关于某一领域、某些人口统计范围、地理相关问题等的问题。数据集越适合于给定的数据使用,数据集对于具有那些数据使用目标的用户就具有越多的值。
服务器计算机102包括数据集字段适合性评估模块(DFSAM)118,其标识具有超过预先确定的适合性阈值的值的字段适合性值(FSV)的数据集。FSV是通过由给定数据集110的导出元数据指示的字段相对于由PDAM 112确定的目标数据字段来计算的,以确定包含在数据集中的字段与优选目标数据字段之间的匹配数目。FSV指示数据集字段和目标数据字段之间的相似度的程度,其可以例如通过具有与目标数据字段的语义相似度大于85%的分类标签的数目或根据本领域技术人员的判断所选择的一些其它值来测量。为了提高下游计算效率,(DFSAM)118确定FSV大于适合性阈值的前k个候选数据集,并将这些候选数据集指定为比较数据集。
服务器计算机102包括比较属性评估模块(CAAM)120,其比较由(DFSAM)118标识的比较数据集的数据集元数据,以生成每个比较数据集的比较属性得分值(CASV),该比较属性得分值表示每个相关联的比较数据集具有展示目标数据集属性的内容的可能性的程度。CASV例如通过确定与所述目标数据集属性具有大于85%的属性语义相似度的多个数据集属性(或根据本领域技术人员的判断选择的一些其它值)来确定。服务器计算机102包括候选数据集排序模块(CDRM)122,其根据目标属性对候选数据集元数据集进行排序并生成由得分值索引的候选数据集的排序列表。注意,各种数据集属性在应用于不同的数据使用文档108时可以具有不同的影响权重,并且这些各种属性影响权重可以被表示为与所确定的元数据中包括的各种字段或其他属性相关联的数据集属性需要性值。服务器计算机102包括最高排序的数据集选择器,其将具有最高比较属性得分值的比较数据集指定为选择的数据集。
作为示例,根据本发明的方面,对两个比较数据集的元数据的评估可以示出数据集具有展示目标数据集属性(例如,“数据集值极差”和“数据集完整性”)的内容。如果“数据集值极差”属性具有比“数据集完整性”属性更高(例如,对给定用户更有用)的用户指示(例如,经由数据使用文档)的数据集属性需要性值,则具有更高“数据集值极差”得分(例如,较宽的值极差)的数据集将被排序为比具有较低值范围得分值(例如,较小的值极差)的数据集更适合于满足相关联用户的需要和偏好。在相同的示例中,具有更高的“数据集完整性”得分的数据集可以不被排序为更合适,因为“数据集完整性”属性不如“数据集值范围”重要。在该示例中,与其他数据集相比,对于低加权的“数据集完整性”属性具有相对较高的得分不足以确保相关联的数据集的高排序。然而,在该示例中,如果与相对高的“数据集完整性”属性得分相关联的数据集被示为具有平均高于其它比较的数据集的平均属性得分值的属性得分集合,则该数据集仍可以被CDRM 122更高排序。
服务器计算机102还包括历史使用日志更新模块(HULUM)124,其更新历史数据字段,因此以历史上下文提供的更高的准确度来评估所选数据集的未来使用。根据本发明的方面,元数据集中的历史使用字段与被选择用于利用搜索上下文值进行搜索的数据集相关联,该搜索上下文值表示搜索参数的方面,并且每当该数据集是选择的数据集时利用搜索参数来更新。根据本发明的方面,注意,可以跟踪数据及其在不同业务应用中的历史使用(例如,通过HULUM 124和选择的数据集元数据以及历史使用更新模块126),并且将其用于开发富元数据(如图4中440示意性所示)。例如,业务应用的正在进行的数据使用可以用于标识相关联的数据使用域和使用频率。这可以作为元数据(例如,经由HULUM 124和选择的数据集元数据和历史使用更新模块126)被添加回数据集,并且未来的搜索可以基于这个不断扩展的元数据内容的集合。已知使用数据集内容来搜索数据集。根据本发明的方面,小方面(例如,目标数据集属性)被包括以作为数据集搜索标准。例如,被称为“空集条目的数目”的小方面可以捕获在给定数据集的每个记录中存在的空(例如,空集)字段的数目。根据本发明的方面,具有在元数据内标识的小方面允许用户指示对展示该分面的数据集的偏好(例如,指示高属性需要性值)。例如,如果给定用户的需求指示对具有低数目的空集记录条目的数据集的偏好,则CDRM 122将比具有更多空集记录条目的数据集更高地排序(例如,更适合于用户,并且更可能满足用户的数据需求和偏好)具有相对低数目的空集记录条目的数据集。根据本发明的方面,还可以直接将某些目标数据集属性(例如,小方面)标识为用于将数据集标识为选择的数据集的需求。
现在具体参考图2,并且一般参考其它附图,根据本发明的各方面的一种根据数据集内容和所需数据属性对多个数据集进行排序的方法。在框202处,服务器计算机102通过PDAM 112使用图标识符、BPEL读取器和UML评估工具(如上所述)从过程文档集合中标识目标数据字段集合,以检查和挖掘文档来标识目标数据字段。
服务器计算机102在框204处经由数据使用文档分析模块DUDAM 114从数据使用文档集合中标识目标数据集属性集合(如上所述)。服务器计算机102经由元数据生成模块(MGM)116在框206处生成多个元数据集合以及相关联的多个数据集。服务器计算机102在框208处经由DFSAM 118确定具有超过预先确定的适合性阈值的值的字段适合性值的候选数据集;所述字段适合性值(FSV)表示与所述数据集相关联的字段集合(经由导出的元数据信息)和所述目标数据字段集合之间的相似度的程度。服务器计算机102在框210处经由CAAM120确定每个比较数据集展示目标数据集属性的可能性。
在框212处,服务器计算机102经由CDRM 122至少部分地基于比较属性得分值来对候选数据集进行排序。服务器计算机102在框214和框216经由选择的数据集元数据和历史使用更新模块126建立用于要在选择的数据集上进行的搜索参数集;以及更新与选择的数据集相关联的元数据集合中的历史使用字段,以便用表示搜索参数的方面的搜索上下文值来进行搜索。服务器计算机102在框218处经由选择的数据集呈现器128来表示选择的数据集218。根据本发明的方面,搜索上下文值可以是提供关于其中先前已经使用了特定数据集的域的信息的数字代码。搜索上下文值还可以是非结构化文本串,并且可以表示所提供的数据集的其他先前使用(包括协作使用的其他数据集)方面。
现在参考图3A,示出了系统100的高级别概览310。具体地,业务需求、数据集和元数据作为输入被提供给数据值引擎以用于处理。根据本发明的方面,数据值引擎提供经排序的数据集、数据值和小方面排序作为输出。根据本发明的各方面,元数据包括关于给定数据集(例如,与给定数据集相关联的域)的数据的信息。元数据可以以不同的形式与数据一起存储。在许多对象存储布置中,数据被存储为对象,并且元数据被存储在与数据对象相关联的键-值对中。元数据主要从数据本身内或手动地利用来自数据专家的输入来标识(例如,利用自动化机制,诸如由本领域技术人员选择的分析算法或类似例程来提取),所述数据专家提供关于各种数据对象的附加洞察和信息。根据本发明的方面,得分是表示元数据中的小方面(例如,属性或特征)的相对重要性的数值。小方面是通过自动化得到的或者作为由领域专家提供的输入的一部分添加到数据集的数据属性。如果两个数据集可用,则对于应用的特定要求而言更好的数据集是具有更高得分的数据集。根据本发明的方面,我们优选地根据内容字段属性和优选数据集属性(例如,小方面)的存在来生成得分并且对数据集进行排序。排序在所有特征中标识给定小方面对于给定数据集的相对重要性。等级还确定当针对给定用户的数据需要建立数据集的适合性时各个面的相对放置。例如,“空值”属性的数据集得分将指示在相关联的数据集中有许多空集记录。进而,服务器计算机102将使用每个属性的得分,并跨各个比较数据集以及在每个数据集内对属性进行排序(例如,经由CDRM 122)。
现在参考图3B,示出了使用中的系统100的示例的示意性表示320。特别地,对某些信息(由被安排到问卷中的问题或一组问题以及其它数据需求表示)的请求被传递到数据值引擎。还向数据值引擎提供若干数据集(例如,“HR数据”、“客户数据集”和“点击分析”)和相关联的数据集元数据。数据值引擎处理输入,根据适合性评估所提供的数据集,并且提供根据所确定的适合性排序的数据集的列表。在所示的示例中,“HR数据”数据集是排序靠前的数据集,具有确定的数据值50;“点击分析”数据集是排序中间的数据集,具有确定的数据值46;而“客户”数据集是排序最低的数据集,其具有确定的数据值35。
现在参考图4,将讨论系统100的示意性概览,其中示出了被布置成多个阶段的系统的各方面。特别地,第一阶段410表示本发明的实施例的方面,统称为“阶段1:商业文档和过程分析引擎”,其中BPEL文档、实现工件、UML和各种组件图被处理以用于实体和活动提取。与第一阶段410相关联的发现单元包括活动图定位器和类图定位器,它们适于根据给定用户的已建立实践和要求来标识支持系统活动所必需的字段,如作为输入提供的过程文档中所表示的。第二阶段420表示本发明的实施例的方面,统称为“阶段2:数据集价值评估引擎”,其中使用已知的NLP、机器学习比较和其它计算机化分析方法,将各种字段要求和期望的数据集特性(包括在第一阶段410中标识的目标字段和在第三阶段430中标识的数据集目标属性(例如,数据集小方面)(以下更全面地描述))与各自描述所提供的数据集的元数据集进行比较。针对每个数据集确定数据集适合性值,并且根据这些值对数据集进行排序。第三阶段430表示统称为“阶段3:业务交互式数据集推荐引擎”,其中各种业务需求问题、相关联的答案和相关的系统工件映射被传递到数据集评估引擎420以便如上所述地使用。第四阶段440表示统称为“阶段4:数据使用的历史”,其中过去的记录的数据集使用和描述该使用的提取的元数据被传递到第二阶段420,以在确定数据集适合性值时进行补充考虑。具体地,第四阶段440的输出通过允许第二阶段420的评估引擎包括过去数据集使用和历史分数值的元数据来提供历史观点和得分准确度的相关联增加。这个阶段为系统提供了在多次重复使用的情况下不断增加的观点,允许系统100随着增加的使用而变得更准确。
现在参考图5,示出了根据示例性工作流大纲500布置的系统的方面的系统100的备选视图。特别地,将业务问卷信息和业务过程信息从业务所有者传递到活动标识阶段,在该阶段中,标识目标数据方面和所需的系统类。然后,业务度量-数据转换器将所需的方面从业务和数据字段提供到数据字段标识符,并且生成方面评估。方面评估被传递到数据集评估阶段,其中数据集排序器提供数据集的排序。然后,将该信息作为输出传递回企业所有者。
现在参考图6,示出了根据本发明的实施例生成的“datavalue”条目和“dataranking”条目的示例实施例的方面的示意表示600。特别地,根据本发明的方面,条目提供了对标识和比较数据集值和相关联的数据集排序有用的JSON格式化的键-值配对的集合的指示。注意,根据本领域技术人员的判断,可以选择其它格式。
现在参考图7,示出了关于用于评估账户流失的会计方案的业务需求的示例性问卷700(和样本答案)。服务器计算机102收集并处理答案(例如,经由DUDAM 114)。相关联的企业可能喜欢收集的信息种类反映在响应于问卷问题而提供的答案中。由与企业相关联的用户提供的答案被用于确定目标数据集属性。
关于流程图和框图,本公开的附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上,流程图或框图中的每个框可以表示指令的模块、段或部分,其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些备选实施例中,框中所注明的功能可不按图中所注明的次序发生。例如,连续示出的两个框实际上可以基本上同时执行,或者这些框有时可以以相反的顺序执行,这取决于所涉及的功能。还将注意,框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。
参考图8,系统或计算机环境1000包括以通用计算设备的形式示出的计算机图1010。本发明的方法例如可以在程序1060中实现,包括在计算机可读存储设备或计算机可读存储介质上实现的程序指令,计算机可读存储介质例如通常被称为存储器1030,并且更具体地被称为计算机可读存储介质1050。这种存储器和/或计算机可读存储介质包括非易失性存储器或非易失性存储。例如,存储器1030可以包括诸如RAM(随机存取存储器)或ROM(只读存储器)的存储介质1034,以及高速缓存存储器1038。程序1060可以由计算机系统1010的处理器1020执行(以执行程序步骤、代码或程序代码)。附加数据存储装置也可以被实现为包括数据1114的数据库1110。计算机系统1010和程序1060是计算机和程序的一般表示,其可以是用户本地的,或者作为远程服务(例如,作为基于云的服务)提供,并且可以在进一步的示例中使用通信网络1200可访问的网站(例如,与网络、互联网或云服务交互)来提供。应当理解,计算机系统1010在本文中还一般地表示计算机设备或包括在诸如膝上型或台式计算机等的设备中的计算机,或者一个或多个服务器,其单独或作为数据中心的一部分。计算机系统可以包括网络适配器/接口1026和(多个)输入/输出(I/O)接口1022。I/O接口1022允许与可以连接到计算机系统的外部设备1074输入和输出数据。网络适配器/接口1026可以提供计算机系统与一般地示为通信网络1200的网络之间的通信。
计算机1010可以在计算机系统可执行指令的一般上下文中描述,诸如由计算机系统执行的程序模块。通常,程序模块可以包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。方法步骤和系统组件和技术可以在用于执行方法和系统的每个步骤的任务的程序1060的模块中实现。这些模块在图中一般表示为程序模块1064。程序1060和程序模块1064可以执行程序的特定步骤、例程、子例程、指令或代码。
本公开的方法可以在诸如移动设备的设备上本地运行,或者可以在例如可以是远程的并且可以使用通信网络1200访问的服务器1100上运行服务。程序或可执行指令也可以作为服务由提供商提供。计算机1010可以在分布式云计算环境中实践,其中任务由通过通信网络1200链接的远程处理设备执行。在分布式云计算环境中,程序模块可以位于包括存储器存储设备的本地和远程计算机系统存储介质中。
计算机1010可以包括各种计算机可读介质。这样的介质可以是能够由计算机1010(例如,计算机系统或服务器)访问的任何可用介质,并且可包括易失性和非易失性介质,以及可移除和不可移除介质。计算机存储器1030可以包括易失性存储器形式的附加计算机可读介质,诸如随机存取存储器(RAM)1034和/或高速缓存1038。计算机1010还可以包括其他可移除/不可移除、易失性/非易失性计算机存储介质,在一个示例中,便携式计算机可读存储介质1072。在一个实施例中,计算机可读存储介质1050可被提供用于从不可移除、非易失性磁介质读取和向其写入。计算机可读存储介质1050可以例如被实现为硬盘驱动器。可以提供附加的存储器和数据存储装置,例如,作为用于存储数据1114并与处理单元1020通信的存储系统1110(例如,数据库)。数据库可以存储在服务器1100上或者是其一部分。尽管未示出,但是可以提供用于从可移除、非易失性磁盘(例如,“软盘”)读取和向其写入的磁盘驱动器,以及用于从诸如CD-ROM、DVD-ROM或其它光学介质等可移除、非易失性光盘读取或向其写入的光盘驱动器。在这样的实例中,每个可以通过一个或多个数据介质接口连接到总线1014。如下面将进一步描绘和描述的,存储器1030可以包括至少一个程序产品,该程序产品可以包括被配置为执行本发明的实施例的功能的一个或多个程序模块。
例如,本公开中描述的(多个)方法可以体现在一个或多个计算机程序中,一般称为程序1060,并且可以存储在计算机可读存储介质1050中的存储器1030中。程序1060可以包括程序模块1064。程序模块1064通常可以执行如这里描述的本发明的实施例的功能和/或方法。一个或多个程序1060存储在存储器1030中并且能够由处理单元1020执行。作为示例,存储器1030可以将操作系统1052、(多个)应用程序1054、其它程序模块、以及程序数据存储在计算机可读存储介质1050上。可以理解,存储在计算机可读存储介质1050上的程序1060、操作系统1052和(多个)应用程序1054可以类似地由处理单元1020执行。还应理解,应用1054和(多个)程序1060被一般地示出,并且可以包括本公开中讨论的一个或多个应用和程序的全部或部分,或反之亦然,即,应用1054和程序1060可以是本公开中讨论的一个或多个应用或程序的全部或部分。
一个或多个程序可以存储在一个或多个计算机可读存储介质中,使得程序被包含和/或编码在计算机可读存储介质中。在一个示例中,所存储的程序可以包括用于由处理器或具有处理器的计算机系统执行的程序指令,以执行方法或使得计算机系统执行一个或多个功能。
计算机1010还可以与一个或多个外部设备1074通信,诸如键盘、定点设备、显示器1080等;一个或多个设备,其使得用户能够与计算机1010交互;和/或使计算机1010能够与一个或多个其它计算设备通信的任何设备(例如,网卡、调制解调器等)。这种通信可以经由输入/输出(I/O)接口1022发生。此外,计算机1010还可以经由网络适配器/接口1026与一个或多个网络1200(诸如局域网(LAN)、通用广域网(WAN)和/或公共网络(例如,互联网))通信。如图所示,网络适配器1026通过总线1014与计算机1010的其它组件通信。应当理解,尽管未示出,但其它硬件和/或软件组件可结合计算机1010使用。实例包括但不限于:微码、设备驱动器1024、冗余处理单元、外部磁盘驱动器阵列、RAID系统、磁带驱动器和数据档案存储系统等。
应当理解,计算机或在计算机1010上运行的程序可以经由被实现为通信网络1200的一个或多个通信网络与被实现为服务器1100的服务器通信。通信网络1200可以包括传输介质和网络链路,其包括例如无线、有线或光纤,以及路由器、防火墙、交换机和网关计算机。通信网络可以包括诸如有线、无线通信链路或光纤电缆的连接。通信网络可以表示使用各种协议(诸如轻量级目录访问协议(LDAP)、传输控制协议/互联网协议(TCP/IP)、超文本传输协议(HTTP)、无线应用协议(WAP)等)来彼此通信的网络和网关(诸如,互联网)的全球集合。网络还可以包括许多不同类型的网络,例如内联网、局域网(LAN)或广域网(WAN)。
在一个示例中,计算机可以使用网络,该网络可以使用因特网来访问Web(万维网)上的网站。在一个实施例中,包括移动设备的计算机1010可以使用通信系统或网络1200,其可以包括因特网或例如蜂窝网络的公共交换电话网络(PSTN)。PSTN可以包括电话线、光缆、传输链路、蜂窝网络和通信卫星。因特网可以促进许多搜索和发短信技术,例如,使用蜂窝电话或膝上型计算机经由文本消息(SMS)、多媒体消息服务(MMS)(与SMS相关)、电子邮件或web浏览器向搜索引擎发送查询。搜索引擎可以检索搜索结果,即,到网站、文档或对应于查询的其他能够下载数据的链接,并且类似地,经由设备将搜索结果作为例如搜索结果的网页提供给用户。
本发明可以是任何可能的技术细节集成水平的系统、方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的计算机可读存储介质(或多个介质),所述计算机可读程序指令用于使处理器执行本发明的各方面。
计算机可读存储介质可以是能够保留和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下:便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、诸如上面记录有指令的打孔卡或凹槽中的凸起结构的机械编码装置,以及上述的任何适当组合。如本文所使用的计算机可读存储介质不应被解释为瞬态信号本身,诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,通过光纤线缆的光脉冲)、或通过导线传输的电信号。
本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备,或者经由网络,例如互联网、局域网、广域网和/或无线网络,下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令,并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据,或者以一种或多种编程语言(包括面向对象的编程语言,例如Smalltalk、C++等)和过程编程语言(例如“C”编程语言或类似的编程语言)的任意组合编写的源代码或目标代码。计算机可读程序指令可以完全在用户的计算机上执行,部分在用户的计算机上执行,作为独立的软件包执行,部分在用户的计算机上并且部分在远程计算机上执行,或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可以通过任何类型的网络连接到用户的计算机,包括局域网(LAN)或广域网(WAN),或者可以连接到外部计算机(例如,使用因特网服务提供商通过因特网)。在一些实施例中,为了执行本发明的各方面,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化。
在此参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各方面。将理解,流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。
这些计算机可读程序指令可以被提供给计算机或其他可编程数据处理装置的处理器以产生机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的部件。这些计算机可读程序指令还可以存储在计算机可读存储介质中,其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作,使得其中存储有指令的计算机可读存储介质包括制品,该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。
计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上,以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。
附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上,流程图或框图中的每个框可以表示指令的模块、段或部分,其包括用于实现指定的(多个)逻辑功能的一个或多个可执行指令。在一些备选实施例中,框中所注明的功能可不按图中所注明的次序发生。例如,连续示出的两个框实际上可以作为一个步骤来实现,同时、基本同时、以部分或全部时间重叠的方式执行,或者这些框有时可以以相反的顺序执行,这取决于所涉及的功能。还将注意,框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。
应当理解,尽管本公开包括关于云计算的详细描述,但是本文所陈述的教导的实现不限于云计算环境。相反,本发明的实施例能够结合现在已知或以后开发的任何其它类型的计算环境来实现。
云计算是一种服务递送模型,用于实现对可配置计算资源(例如,网络、网络带宽、服务器、处理、存储器、存储装置、应用、虚拟机和服务)的共享池的方便的按需网络访问,所述可配置计算资源可以以最小的管理努力或与服务的提供者的交互来快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。
特性如下:
按需自助:云消费者可以单方面地自动地根据需要提供计算能力,诸如服务器时间和网络存储,而不需要与服务的提供者进行人工交互。
广域网接入:能力在网络上可用,并且通过促进由异构的薄或厚客户端平台(例如,移动电话、膝上型计算机和PDA)使用的标准机制来访问。
资源池化:供应商的计算资源被集中以使用多租户模型来服务多个消费者,其中不同的物理和虚拟资源根据需求被动态地分配和重新分配。存在位置无关的意义,因为消费者通常不控制或不知道所提供的资源的确切位置,但是能够在较高抽象级别(例如国家、州或数据中心)指定位置。
快速弹性:在一些情况下,可以快速且弹性地提供快速向外扩展的能力和快速向内扩展的能力。对于消费者,可用于提供的能力通常看起来不受限制,并且可以在任何时间以任何数量购买。
测量服务:云系统通过利用在适合于服务类型(例如,存储装置、处理、带宽和活动用户账户)的某一抽象级别的计量能力来自动地控制和优化资源使用。可以监视、控制和报告资源使用,从而为所利用服务的提供者和消费者两者提供透明性。
服务模型如下:
软件即服务(SaaS):提供给消费者的能力是使用在云基础设施上运行的提供者的应用。应用程序可通过诸如web浏览器(例如,基于web的电子邮件)等瘦客户机界面从各种客户机设备访问。消费者不管理或控制包括网络、服务器、操作系统、存储装置、或甚至个别应用能力的底层云基础结构,可能的例外是有限的用户专用应用配置设置。
平台即服务(PaaS):提供给消费者的能力是将消费者创建或获取的应用部署到云基础设施上,该消费者创建或获取的应用是使用由提供商支持的编程语言和工具创建的。消费者不管理或控制包括网络、服务器、操作系统或存储装置的底层云基础设施,但具有对部署的应用和可能的应用托管环境配置的控制。
基础设施即服务(IaaS):提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其它基本计算资源,所述软件可以包括操作系统和应用。消费者不管理或控制底层云基础设施,但具有对操作系统、存储、部署的应用的控制,以及可能对选择的联网组件(例如,主机防火墙)的有限控制。
部署模型如下:
私有云:云基础设施仅为组织操作。它可以由组织或第三方管理,并且可以存在于建筑物内或建筑物外。
社区云:云基础设施由若干组织共享,并且支持具有共享关注(例如,任务、安全要求、策略和合规性考虑)的特定社区。它可以由组织或第三方管理,并且可以存在于场所内或场所外。
公有云:云基础设施可用于一般公众或大型工业群体,并且由销售云服务的组织拥有。
混合云:云基础设施是两个或更多云(私有、共同体或公共)的组合,所述云保持唯一实体,但是通过使数据和应用能够移植的标准化或私有技术(例如,用于云之间的负载平衡的云突发)绑定在一起。
云计算环境是面向服务的,其焦点在于无状态、低耦合、模块性和语义互操作性。在云计算的核心是包括互连节点的网络的基础设施。
现在参考图9,描绘了说明性云计算环境2050。如图所示,云计算环境2050包括云计算消费者使用的本地计算设备可以与其通信的一个或多个云计算节点2010,诸如,例如个人数字助理(PDA)或蜂窝电话2054A、台式计算机2054B、膝上型计算机2054C和/或汽车计算机系统2054N。节点2010可以彼此通信。它们可以被物理地或虚拟地分组(未示出)在一个或多个网络中,诸如如上文描述的私有云、社区云、公共云或混合云或其组合。这允许云计算环境2050提供云消费者不需要为其维护本地计算设备上的资源的基础设施、平台和/或软件即服务。应当理解,图9中所示的计算设备2054A-N的类型仅旨在是说明性的,并且计算节点2010和云计算环境2050可以在任何类型的网络和/或网络可寻址连接上(例如,使用web浏览器)与任何类型的计算设备通信。
现在参考图10,示出了由云计算环境2050(图9)提供的一组功能抽象层。应当预先理解,图10中所示的组件、层和功能仅旨在说明,并且本发明的实施例不限于此。如所描绘的,提供了以下层和相应的功能:
硬件和软件层2060包括硬件和软件组件。硬件组件的示例包括:大型机2061;基于RISC(精简指令集计算机)架构的服务器2062;服务器2063;刀片服务器2064;存储设备2065;以及网络和联网组件2066。在一些实施例中,软件组件包括网络应用服务器软件2067和数据库软件2068。
虚拟化层2070提供抽象层,从该抽象层可以提供虚拟实体的以下示例:虚拟服务器2071;虚拟存储装置2072;虚拟网络2073,包括虚拟专用网络;虚拟应用和操作系统2074;以及虚拟客户端2075。
在一个示例中,管理层2080可以提供以下描述的功能。资源供应2081提供对被用来在云计算环境内执行任务的计算资源和其他资源的动态采购。计量和定价2082提供了在云计算环境中利用资源时的成本跟踪,以及用于消耗这些资源的记帐或开发票。在一个示例中,这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证,以及为数据和其他资源提供保护。用户门户2083为消费者和系统管理员提供对云计算环境的访问。服务级别管理2084提供云计算资源分配和管理,使得满足所需的服务级别。服务水平协议(SLA)计划和履行2085提供对云计算资源的预先安排和采购,其中根据SLA预期未来需求。
工作负载层2090提供了可以利用云计算环境的功能的示例。可以从该层提供的工作负载和功能的示例包括:映射和导航2091;软件开发和生命周期管理2092;虚拟教室教育传送2093;数据分析处理2094;交易处理2095;以及根据数据集内容和期望的数据属性2096对多个数据集进行排序的自动方法。
已经描述了本发明的各种实施例,为了说明的目的而呈现,但不旨在是穷尽的或限于所公开的实施例。同样地,无论是在特定实施例的描述中使用还是作为示例列出,本文描述的本公开的实施例的特征或功能的示例不旨在限制本文描述的本公开的实施例,或者将本公开限制于本文描述的示例。在不背离所描述的实施例的范围和精神的情况下,许多修改和变化对于本领域的普通技术人员将是明显的。选择本文所使用的术语以最好地解释实施例的原理、实际应用或对市场上存在的技术改进,或使本领域的其他普通技术人员能够理解本文所公开的实施例。

Claims (10)

1.一种用于根据数据集属性对多个数据集进行排序的计算机实现的方法,包括:
由计算机从过程文档集合中标识目标数据字段集合,所述过程文档指示用户的数据字段偏好;
由所述计算机从数据使用文档集合中标识目标数据集属性集合,所述数据使用文档指示所述用户的数据范围偏好;
由计算机生成针对相关联的多个数据集的多个元数据集;
由所述计算机确定具有超过预先确定的适合性阈值的值的字段适合性值的候选数据集,所述字段适合性值表示与所述数据集相关联的字段集合和所述目标数据字段集合之间的相似度的程度;
由所述计算机关于所述目标属性评估针对每个候选数据集的相关联的所述元数据集,并且由所述计算机针对每个候选数据集生成比较属性得分,所述比较属性得分指示相关联的数据集将具有展示所述目标数据集属性的内容的可能性的程度;以及
由所述计算机生成根据所述比较属性得分排序的所述候选数据集的列表。
2.根据权利要求1所述的方法,其中所述数据使用文档包括从由业务过程执行语言BEPL和统一建模语言UML组成的列表中选择的格式的信息。
3.根据权利要求1所述的方法,其中所述数据目标属性是从所述过程文档的元素中提取的,所述元素是从由类图、活动图、序列图和组件图组成的列表中选择的。
4.根据权利要求1所述的方法,还包括将具有最高比较属性得分的候选数据集指定为选择的数据集。
5.根据权利要求4所述的方法,还包括针对要对所述选择的数据集进行的搜索建立搜索参数集;以及利用表示所述搜索参数的方面的搜索上下文值来更新与被选择用于进行搜索的数据集相关联的所述元数据集中的历史使用字段。
6.根据权利要求5所述的方法,其中所述排序至少部分地基于所述历史使用字段值。
7.根据权利要求1所述的方法,其中所述比较属性得分至少部分地基于与所述目标数据集属性中的每个目标数据集属性相关联的相关联的合意性值。
8.根据权利要求1所述的方法,其中所述元数据集合包括从由以下各项组成的列表中选择的信息:域、性别、年龄组、地理分布、人口统计分布、数值的统计极差以及适用性的上下文。
9.一种根据数据集属性对多个数据集进行排序的系统,所述系统包括:
一种计算机系统,包括计算机可读存储介质,所述计算机可读存储介质具有随其体现的程序指令,所述程序指令能够由计算机执行以使所述计算机执行根据权利要求1-8中任一项所述的方法。
10.一种用于根据数据集属性对多个数据集进行排序的计算机程序产品,所述计算机程序产品包括程序指令,所述程序指令能够由计算机执行以使所述计算机执行根据权利要求1-8中任一项所述的方法。
CN202111423989.3A 2020-12-17 2021-11-26 基于数据属性对数据集进行排序 Pending CN114647627A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/125,935 US11436237B2 (en) 2020-12-17 2020-12-17 Ranking datasets based on data attributes
US17/125,935 2020-12-17

Publications (1)

Publication Number Publication Date
CN114647627A true CN114647627A (zh) 2022-06-21

Family

ID=80038610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111423989.3A Pending CN114647627A (zh) 2020-12-17 2021-11-26 基于数据属性对数据集进行排序

Country Status (4)

Country Link
US (1) US11436237B2 (zh)
JP (1) JP2022096632A (zh)
CN (1) CN114647627A (zh)
GB (1) GB2603609A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114942819A (zh) * 2022-07-22 2022-08-26 浙江中控技术股份有限公司 数据字段处理方法、电子设备及计算机可读存储介质
CN116578602A (zh) * 2023-06-15 2023-08-11 深圳计算科学研究院 一种时序排序方法及装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117632963B (zh) * 2023-11-29 2024-09-17 数翊科技(北京)有限公司 一种建表方法、系统及电子设备
CN117974188A (zh) * 2024-01-31 2024-05-03 朴道征信有限公司 数据集获取方法、装置、电子设备和计算机可读介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8472330B2 (en) * 2007-06-22 2013-06-25 International Business Machines Corporation System and method for determining and optimizing resources of a data processing system utilized by a service request
US20160328406A1 (en) 2015-05-08 2016-11-10 Informatica Llc Interactive recommendation of data sets for data analysis
US10540400B2 (en) 2015-06-16 2020-01-21 Business Objects Software, Ltd. Providing suggestions based on user context while exploring a dataset
US10289622B2 (en) * 2015-11-24 2019-05-14 Sap Se Ranking using data of continuous scales
US10528522B1 (en) 2016-03-17 2020-01-07 EMC IP Holding Company LLC Metadata-based data valuation
US10417439B2 (en) 2016-04-08 2019-09-17 Google Llc Post-hoc management of datasets
US10339147B1 (en) * 2016-06-22 2019-07-02 Amazon Technologies, Inc. Data set scoring
EP3673383A4 (en) * 2017-10-10 2021-01-20 Thoughtspot Inc. AUTOMATIC DATABASE ANALYSIS
US10733212B2 (en) * 2017-10-16 2020-08-04 Salesforce.Com, Inc. Entity identifier clustering based on context scores
US11080272B2 (en) * 2019-06-28 2021-08-03 Microsoft Technology Licensing, Llc Entity resolution techniques for matching entity records from different data sources
US11210285B2 (en) * 2020-03-06 2021-12-28 Ab Initio Technology Llc Generation of optimized logic from a schema

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114942819A (zh) * 2022-07-22 2022-08-26 浙江中控技术股份有限公司 数据字段处理方法、电子设备及计算机可读存储介质
CN114942819B (zh) * 2022-07-22 2022-11-11 浙江中控技术股份有限公司 数据字段处理方法、电子设备及计算机可读存储介质
CN116578602A (zh) * 2023-06-15 2023-08-11 深圳计算科学研究院 一种时序排序方法及装置
CN116578602B (zh) * 2023-06-15 2024-03-12 深圳计算科学研究院 一种时序排序方法及装置

Also Published As

Publication number Publication date
US20220197914A1 (en) 2022-06-23
JP2022096632A (ja) 2022-06-29
GB202117333D0 (en) 2022-01-12
GB2603609A (en) 2022-08-10
US11436237B2 (en) 2022-09-06

Similar Documents

Publication Publication Date Title
US11727328B2 (en) Machine learning systems and methods for predictive engagement
US11216509B2 (en) Dynamic faceting for personalized search and discovery
US20210383308A1 (en) Machine learning systems for remote role evaluation and methods for using same
US10503569B2 (en) Feature-based application programming interface cognitive comparative benchmarking
US11436237B2 (en) Ranking datasets based on data attributes
EP2876589A1 (en) Recommendation system for specifying and achieving goals
WO2017131982A1 (en) Computer resource ranking for interconnected user profiles
US20210383229A1 (en) Machine learning systems for location classification and methods for using same
US20200401639A1 (en) Personalizing a search query using social media
WO2021248132A1 (en) Machine learning systems for collaboration prediction and methods for using same
US20220051049A1 (en) Using meta-learning to optimize automatic selection of machine learning pipelines
US20220198222A1 (en) Automated generation of machine learning model pipeline combinations
US20160217200A1 (en) Dynamic creation of domain specific corpora
US11099107B2 (en) Component testing plan considering distinguishable and undistinguishable components
CN114595323A (zh) 画像构建、推荐、模型训练方法、装置、设备及存储介质
US10332048B2 (en) Job profile generation based on intranet usage
US20220309391A1 (en) Interactive machine learning optimization
US11250096B1 (en) Navigation for screen readers using data analytics
US20200043019A1 (en) Intelligent identification of white space target entity
US20200242494A1 (en) Corpus Gap Probability Modeling
US11714637B1 (en) User support content generation
US11989678B2 (en) System using artificial intelligence and machine learning to determine an impact of an innovation associated with an enterprise
US20230101339A1 (en) Automatic response prediction
US11762896B2 (en) Relationship discovery and quantification
US20220284319A1 (en) Intelligent guidance using machine learning for user navigation of multiple web pages

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination