CN104714998A - 用于基于上下文在数据分析中处理推荐的方法和系统 - Google Patents

用于基于上下文在数据分析中处理推荐的方法和系统 Download PDF

Info

Publication number
CN104714998A
CN104714998A CN201410664712.3A CN201410664712A CN104714998A CN 104714998 A CN104714998 A CN 104714998A CN 201410664712 A CN201410664712 A CN 201410664712A CN 104714998 A CN104714998 A CN 104714998A
Authority
CN
China
Prior art keywords
analysis
branch
previous execution
context
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410664712.3A
Other languages
English (en)
Other versions
CN104714998B (zh
Inventor
B·R·加内施
R·马尔维亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN104714998A publication Critical patent/CN104714998A/zh
Application granted granted Critical
Publication of CN104714998B publication Critical patent/CN104714998B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9027Trees

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Educational Administration (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)

Abstract

本发明涉及用于基于上下文在数据分析中处理推荐的方法和系统。本发明的实施方式公开了一种用于基于上下文在数据分析中提供推荐的计算机实现的方法、计算机程序产品和系统。在根据本发明的实施方式中,计算机实现的方法包括如下步骤:确定在数据分析中当前正在被执行的分析步骤的分析上下文;标识相似于确定的所述分析上下文的先前执行的分析分支的列表;基于与关联于标识的所述列表中的每个先前执行的分析分支的分析树中的每个先前执行的分析分支相关联的相似性指标评级,标识最相似的先前执行的分析分支的集合;以及基于标识的所述集合中的所述先前执行的分析分支的分析上下文,提供针对当前正在被执行的所述分析步骤的分析推荐。

Description

用于基于上下文在数据分析中处理推荐的方法和系统
技术领域
本发明概括地涉及数据分析领域,以及更具体地涉及基于上下文在数据分析中确定推荐。
背景技术
随着可获得的数据量的增长,数据分析对于用于确定来自大量数据的相关信息而言越来越重要。业务分析使用数据分析来试图从大量数据中确定重要信息(例如,趋势)。根据业务的目标,数据可以用于统计和量化分析、可视化、影响和原因分析、预测建模和其他形式的数据分析的业务分析。
业务分析使用来自各种不同域的数据,以实现涵盖多个业务方面的可视化。例如,业务分析中的数据分析可以用于将相关于其中订单被下单的方法(例如,在线、电话、店内)的不同类型的产品的销售的图形表示可视化。在数据分析中确定相关趋势是多步骤并且是多变化的过程,其可以通过各种不同方法来实现。在业务分析领域中工作的人员更熟悉如下方法,其中该方法可以产生对应于业务兴趣的洞察。
发明内容
本发明的实施方式公开了一种用于基于上下文在数据分析中提供推荐的计算机实现的方法、计算机程序产品和系统。在根据本发明的实施方式中,计算机实现的方法包括如下步骤:确定在数据分析中当前正在被执行的分析步骤的分析上下文;标识相似于确定的所述分析上下文的先前执行的分析分支的列表,其中所述分析分支是对应于分析上下文的属性的分析步骤的集合;基于与关联于标识的所述列表中的每个先前执行的分析分支的分析树中的每个先前执行的分析分支相关联的相似性指标评级,标识最相似的先前执行的分析分支的集合,其中分析树是共享共同分析步骤的分析分支的集合;以及基于标识的所述集合中的所述先前执行的分析分支的分析上下文,提供针对当前正在被执行的所述分析步骤的分析推荐。
附图说明
图1是根据本发明的一个实施方式的数据处理环境的功能性框图;
图2是绘出根据本发明一个实施方式的用于处理对执行数据分析的人员的数据分析推荐的程序的操作步骤的流程图;以及
图3绘出了根据本发明一个实施方式的图1的计算系统的组件的框图。
具体实施方式
本发明的各个实施方式允许基于当数据分析步骤的上下文来向执行数据分析的人员提供数据分析推荐。在一个实施方式中,将当前数据分析步骤与先前分析相比较,以标识相似于当前数据分析步骤的分析上下文的先前分析。对于被确定相似于当前数据分析步骤的上下文的先前分析,向执行数据分析的人员推荐相关分析(基于每个相似分析分支)。
本发明的实施方式认识到,随着数据量的增长而使得数据分析变得更加困难。对于经验较少的人员而言,分析大量数据并简单地呈现获取的数据的可视化,这可能不能提供用以从数据确定趋势和其他信息的有效的信息。向分析数据的人员提供分析推荐步骤可以提高确定相关性洞察数据的可能性。分析数据的人员通常通过在高等级分析数据开始,并且通过过滤系统地缩小分析的范围实现实现分析的期望等级。
所属技术领域的技术人员知道,本发明的各个方面可以实现为系统、方法或计算机程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、驻留软件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。此外,在一些实施方式中,本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以使用计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式压缩盘只读存储器(CD-ROM)、光存储设备、磁存储设备、以及上述的任意合适的组合。在本文档的上下文中,计算机可读存储介质可以是任何有形的介质,其可以包括或者存储程序以用于由执行执行系统、装置或者设备使用,或者与连接。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或相似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
下面将参照根据本发明实施方式的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而生产出一种机器,使得这些计算机程序指令在通过计算机或其他可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。
也可以把这些计算机程序指令存储在计算机可读介质中,这些指令使得计算机、其他可编程数据处理装置、或其他设备以特定方式工作,从而,存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品(article of manufacture)。
计算机指令还可以被加载到计算机、其他可编程数据处理装置或者其他设备,以使得在计算机、其他可编程装置或者其他设备上执行一系列步骤,以便产生计算机实现的过程,从而在计算机或者其他可编程装置上执行的指令提供处理来实现在流程图和/或框图的一个或者多个框中指定的功能/动作。
现在将参考附图详细描述本发明。图1是示出根据本发明的一个实施方式的分布式数据处理环境的功能框图。
数据处理环境100的实施方式包括客户端设备110和115、服务器130,其全部通过网络120互联。在本发明的各种实施方式中,客户端设备110和115可以是工作站、个人计算机、个人数字助理、移动电话或者能够执行根据本发明的实施方式的程序指令的任何其他设备。通常,根据本发明的各个实施方式,客户端设备110和115是能够执行及其可读程序指令的任何电子设备或者电子设备的组合的代表,如参见图3更详细地描述。客户端设备110和115可以通过网络120访问访问器130上的数据。
客户端设备110和115包括用户接口112和应用114的相应实例。用户接口112利用客户端设备110和115接收来自人员的输入。在示例实施方式中,客户端设备110和115上的应用114可以分析存储在服务器130上的数据。例如,应用114访问服务器130上的对应于各种类型的产品的销售的数据,并且创建相关于销售时间段(例如,年度、季度等)的不同类型的产品的销售的可视化(例如,表、图形表示等)。在示例实施方式中,应用114接收来自用户接口112的输入,其可以由人员利用客户端设备110或者115来提供。
在一个实施方式中,客户端设备110和115以及服务器130通过网络120通信。网络120例如可以是局域网(LAN)、电信网络、广域网(WAN)诸如互联网或者上述三者的组合,并且包括有线、无线或者光纤连接。通常,根据本发明的实施方式,网络120可以是连接和协议的任意组合,其可以支持在客户端设备110和115以及服务器130之间通信。
在示例实施方式中,服务器130可以是桌面计算机、计算机服务器或者现有技术已知的任何其他计算机系统。在特定实施方式中,服务器130表示计算机系统,其利用集群化的计算机和组件(例如,数据库服务器计算机、应用服务器计算机等),当由数据处理环境100(例如,客户端设备110和115)的元素访问时,用作无缝资源的单一池。通常而言,根据本发明的实施方式,服务器130是能够执行机器可读程序指令的任何电子设备或者电子设备的组合的代表,如参见图3更详细地描述。
服务器130包括存储设备135以及推荐程序200。在示例实施方式中,存储设备135存储客户端设备110和115利用应用114可以访问和分析的数据。存储设备135可以以任意类型的存储设备来实现,例如,持久存储308,其能够存储由客户端设备110和115以及服务器130访问和利用的数据,诸如数据库服务器、硬盘驱动或者闪存。在其他实施方式中,存储设备135可以表示服务器130内的多个存储设备。在示例实施方式中,根据本发明的实施方式,推荐程序200在数据分析中提供对应于当前数据分析步骤的上下文的推荐。
在一个实施方式中,存储设备135包括数据136以及先前分析137。数据136可以是应用114可以访问和分析的各种类型的数据(例如,销售数据、金融数据、资源利用和其他形式的数据)。例如,数据136包括不同类型产品的销售数据,其中销售数据包括每个产品的销售量、每个销售的价格、订单被下单的方法(例如,在线、电话、店内)销售时间、和对应于产品销售的其他数据。先前分析137包括来自数据136的先前分析的数据。例如,数据136可以由应用114分析了多次;利用不同的分析尝试来分析数据的不同集合。在一个实施方式中,先前分析137包括从业务数据136确定的先前可视化、以及与可视化相关联的数据。先前分析137包括有需要重新创建先前已经达到的分析状态(即,数据分析中的步骤),以及先前分析137的实例存在对应于已经执行的每个先前数据分析步骤。
在数据分析步骤被执行时,被采纳以分析数据136的每个分析步骤(例如,通过利用客户端设备110或者115来由人员实现)在存储设备135中被存储为先前分析137的实例。在另一实施方式中,当先前的分析步骤已经作为先前分析137的实例而存储在存储设备135中时,分析上下文的指示与先前分析137的相应实例相关联地存储。分析上下文是用于表征分析的一组属性并且是数据分析的前提。分析上下文的确定中包括的属性包括但不限于:名称、注释、数据源、概念、测量、层级、过滤器、成员和数据分析中的其他参数。在一个实施方式中,与数据分析并发操作的注释者(例如,非结构化信息管理架构(UIMA)注释者)可以捕获关于与数据分析相关联的属性的信息(例如,上下文属性、分析的程度、数据趋势等)。例如,客户端设备115是利用应用114来分析城市的人口细节。确定的上下文可以包括包含城市、周、国家、日期、月、年等的属性和概念。
在另一实施方式中,当先前的分析步骤作为先前分析137的实例而存储在存储设备135中时,相关联的相似性矩阵和相似性指标评级被确定和存储。在一个实施方式中,相似性指标评级是基于多矢量空间(例如,相似性矩阵)中的从给定分析分支到相同分析树中的其他分析分支的相对距离来计算的。分析树是一组分析分支的集合,其共享公共的分析步骤(即,分析树的根)。分析分支是分析步骤的集合,其对应于分析上下文的属性。在示例实施方式中,分析分支包括由应用针对数据136中的数据的集合执行的一系列数据分析步骤,并且被存储在先前分析137中。在此示例中,分析树包括与数据分析步骤的序列的第一分析步骤相关联的全部分析分支。
多个矢量空间(即,相似性矩阵)可以是被利用以定义分析分支的上下文的上下文属性的集合(例如,上下文参数、概念、值等)相似性指标评级可以通过使用距离计算算法(例如,欧氏距离公式)来计算,以确定在相似性矩阵内的分析分支之间的相对距离。每个分析树具有相应的相似性矩阵,其可以被用以确定分析分支相对于给定分析分支的相似性指标评级。例如,相似性指标评级的计算可以包括距离矢量与属性,诸如针对每个上下文属性的加权的贡献、匹配上下文属性或者参数、匹配范围的数量,以及可以在分析分支之间共享的数据分析的其他参数。在示例实施方式中,相似性指标评级包括提供其中分析分支相关于相同分析树中的其他分析分支的程度指示的数值(例如,具有较高相似性指标评级的分析分支比具有低相似性指标评级的分析分支更相似)。
图2是绘出根据本发明一个实施方式的推荐程序200的操作步骤的流程图。在一个实施方式中,推荐程序200响应于应用114发起数据分析而启动,或者响应于在数据分析中应用执行一动作(例如,数据分析步骤)而启动。例如,推荐程序200响应于应用114请求数据分析136、以及响应于114在分析数据136中指定新的分析参数而启动。
在步骤202中,推荐程序200标识当前数据分析步骤。在一个实施方式中,推荐程序200标识数据分析步骤(即,分析状态)其中应用114当前正在执行。例如,当前数据分析步骤是响应于经由用户接口112向应用114输入所定义的参数的图形化描述。在一个示例中,人员在客户端设备110上使用应用114来在服务器130上执行数据136的数据分析。在此实施方式中,应用114执行对应于2012年3月到2012年6月的数据范围的北美的产品X的示出为显著的下降的销售数据的分析。推荐程序200标识应用114的当前数据分析步骤为“2012年3月到2012年6月日期范围的北美的产品X的销售数据示出显著下降”。
在步骤204中,推荐程序200确定所标识当前数据分析步骤的内容。数据分析步骤的内容是表征分析步骤的属性集,并且是数据分析步骤的前提。在一个实施方式中,推荐程序200确定应用114当前正在执行的数据分析步骤的上下文(在步骤202中标识)。在一个示例实施方式中,推荐程序200利用注释器(例如UIMA注释器)来捕获关于与标识的当前数据分析步骤相关联的属性的信息(例如,上下文属性、分析的目的、数据趋势,等)。在先前讨论的示例中,推荐程序200标识应用114的当前数据分析步骤为“2012年3月到2012年6月日期范围的北美的产品X的销售数据示出显著下降”(在步骤202)中。在此示例中,推荐程序200确定并定义上下文为“产品X,销售,北美,2012年3月到2012年6月,显著下降”。
在步骤206中,推荐程序200标识相似于所标识的当前数据分析步骤的确定的上下文的分析分支的列表。在一个实施方式中,推荐程序200使用确定的上下文(从步骤204)来标识在先前分析137中的分析分支的列表,其相似于所标识的当前数据分析步骤的上下文。分析分支是对应于分析上下文的属性的分析步骤的集合。在示例实施方式中,分析分支包括由应用114对数据136中的数据集执行的数据分析步骤的序列,并且其被存储在先前的分析137中。在一个实施方式中,推荐程序200利用在当前数据分析步骤和先前分析137的分析分支的确定上下文之间的语义相似性,以识别相似分析分支的步骤。在先前讨论的示例中,推荐程序200确定上下文为“产品X,销售,北美,2012年3月到2012年6月,显著下降”(步骤204)。在此示例中,推荐程序200标识分析分支的列表,在多个其他分析分支中,其包括“针对2012年1月至2012年3月的数据范围的北美的产品Y显示为显著下降的数据”。
在步骤208中,推荐程序200标识对应于与所标识的分析分支相关联的分析树中的每个其他分析分支的相似性指标评级。在一个实施方式中,针对分析分支的所标识的列表中的每个分析分支(从步骤206),推荐程序200标识相对应的分析树,以及该分析树内的每个其他分析分支的相似性指标评级。分析树是共享共同分析步骤(即,分析树的跟)的分析分支的集合。存储在先前分析137中的每个分析分支具有相关联的相似性矩阵,其在分析分支被存储在存储设备135中的时间确定。相似性分支评级存储在相关于分析树的存储设备135中,并且被用以确定针对分析树内的分析分会的相似性指标评级。
在步骤210中,推荐程序200标识最相似的分析分支。在一个实施方式中,推荐程序200利用所标识的相似性矩阵和相似性指标评级(在步骤208中标识)以标识具有指示最高相似性的相似性指标评级的分析分支。例如,具有较高相似性指标评级的分析分支比具有低相似性指标评级的分析分支更为相似。在一个示例实施方式中,所标识的最相似分析分支包括一列表,该列表包括在所标识的分析分支中的每一个的分析树中的分析分支(在步骤206),以及相对应的相似性指标评级。在各种实施方式中,推荐程序200标识为最相似的分析分支的数量可以基于用户定义的配置(例如,关于相似分支数量的限制、特定相似性指标评级范围内的分支,等)。用户定义的条件的示例可以是最大数量为5个相似分支,或者具有0.8和1之间的相似性指标评级的分支。
在步骤212中,推荐程序200基于所标识的相似性分析分支,针对所标识的当前数据分析步骤来提供分析推荐。在一个实施方式中,推荐程序200向在客户端设备(即,客户端设备110或者115)上的执行数据分析的应用114提供推荐。推荐程序200针对每个所标识的最相似的分析分支(在步骤210中标识的列表中),向所标识的当前数据分析步骤来应用分析分支的分析上下文,并且提供每个实例作为分析推荐。在示例实施方式中,响应于接收到来自推荐程序200的所提供的分析推荐,客户端设备110或者115可以针对后续执行的应用作出选择分析步骤(经由通过用户接口112对应用114的用户输入)。
在先前讨论的示例中,推荐程序200将应用114的当前数据分析步骤作为“2012年3月2012年6月的日期范围的北美的产品X的销售数据显示显著下降”(在步骤202中)以及分析分支的列表,在多个其他分析分支中(如在步骤208中描述),其包括“2012年1月至2012年3月的日期范围的北美的产品Y示出显著下降而返回数据”。在此示例中,推荐程序200标识分析分支“针对2012年1月至2012年3月的日期范围的北美的产品Y示出显著下降而返回数据”为江北包括在最相似的分析分支中(步骤210)。推荐程序200利用“产品Y,返回,北美,2012年1月至2012年3月,显著下降”的分析上下文,以对“针对2012年3月至2012年6月的日期范围的北美的产品X示出显著下降而返回数据”的所标识的当前数据分析步骤,来提供分析推荐。在另一示例中,推荐程序200使用“产品Y,返回,北美,2012年1月至2012年3月,显著下降”的分析上下文,以对“针对2012年1月至2012年3月的日期范围的北美的产品X的销售数据”的所标识的当前数据分析步骤,来提供分析推荐。在示例实施方式中,所提供的分析推荐可以提供对所标识当前数据分析步骤的修改,以便辅助人员来利用在客户端设备110或者115上的应用114以执行数据分析,这可以基于先前执行的数据136的分析(即,先前分析137)的分析上下文。
图3是根据本发明一个示意性实施方式的计算机300的组件的框图,其是客户端设备110和115的代表和服务器130。应当注意,图3仅提供了一个实现的示意,并且并不暗含关于其中可以实现不同实施方式的环境的任何限制。可以对绘出的环境的多种修改。
计算机300包括通信架构302,其提供在计算机处理器304、存储器306、持久存储308、通信单元310和输入/输出(I/O)接口312之间的通信。通信架构302可以以设计的任何架构来实现,该架构用于处理在处理器(诸如,微处理器、通信和网流处理器等)、系统存储器、外围设备和系统内的任何其他硬件组件之间传输数据和/或控制信息。例如,例如,通信架构302可以以一个或者多个总线来实现。
存储器306和持久存储308是计算机可读有形存储设备的示例。存储设备是能够在功能上存储信息(诸如数据、程序代码)、和/或基于临时和/或持久基础来存储其他适当信息的任何硬件。在此实施方式中,存储器306包括随机访问存储器(RAM)314和高速缓存存储器316。通常,存储器306可以包括任何适当的易失性或者非易失性计算机可读存储设备。软件和数据322存储在持久存储器308用于经由存储器306的一个或者多个存储器来由处理器304访问和/或执行。相对于客户端设备110和115,软件和数据322表示应用114。相对于服务器130,软件和数据322表示数据136,先前分析137以及推荐程序200。
在此实施方式中,持久存储308包括磁性硬盘驱动。作为磁性硬盘驱动的备选或者附加,持久存储308可以包括固态硬驱动、半导体存储设备、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、闪存、或者任何其他的计算机可读存储介质,其能够存储程序指令或者数据信息。
由持久性存储308使用的介质还可以是可移除的。例如,可移除硬驱动可以用于持久存储308。其他示例包括光盘和磁盘、拇指驱动和智能卡,其可以被插入驱动来用于传输向同样作为持久存储308的一部分的另一计算机可读存储介质进行传输。
在这些示例中,通信单元310提供与其他数据处理系统或者设备的通信。在这些示例中,通信单元310可以包括一个或者多个网络接口卡。通信单元310可以通过使用物理或者无线通信链接中的一个或者两者来进行通信。软件和数据322可以通过通信单元310而下载到持久存储308中。
允许与其他设备进行数据输入和输出的I/O接口312可以连接到计算机300。例如,I/O接口312可以提供对外部设备318(诸如,键盘,小键盘、触摸屏和/或某些其他适合的输入设备)的连接。外部设备318还可以包括便携式计算机可读存储介质,诸如例如,拇指驱动、便携光学或者磁性盘、以及存储卡。软和和数据322可以被存储至便携式计算机可读存储介质,并且可以经由I/O接口312来加载到持久存储308。I/O接口312还可以连接至显示器320。
显示器320提供向用户显示数据的机制,并且例如可以是计算机监视器。显示器320还可以用作触摸屏,诸如平板计算机的显示器。
在此所描述的程序可以基于实现在本发明的特定实施方式中的应用来标识。然而,应当注意,在此的任何特定的程序命名仅仅出于方便的目的,并且由此不应当被限制为仅在标识的和/或由此类命名暗指的任何特定应用中使用。
附图中的流程图和框图显示了根据本发明的多个实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

Claims (12)

1.一种用于基于上下文在数据分析中提供推荐的计算机实现的方法,所述方法由一个或者多个处理器执行,所述方法包括如下步骤:
确定在数据分析中当前正在被执行的分析步骤的分析上下文;
标识相似于确定的所述分析上下文的先前执行的分析分支的列表,其中分析分支是对应于分析上下文的属性的分析步骤的集合;
基于与关联于标识的所述列表中的每个先前执行的分析分支的分析树中的每个先前执行的分析分支相关联的相似性指标评级,标识最相似的先前执行的分析分支的集合,所述每个先前执行的分析分支其中分析树是共享共同分析步骤的分析分支的集合;以及
基于标识的所述集合中的所述先前执行的分析分支的分析上下文,提供针对当前正在被执行的所述分析步骤的分析推荐。
2.根据权利要求1所述的方法,
其中分析上下文是表征分析的属性的集合,以及
其中在分析上下文的确定和定义中利用的所述属性包括以下中的一个或者多个:名称、注释、数据源、概念、测量、层级、过滤器、成员和分析参数。
3.根据权利要求1所述的方法,其中相似于确定的所述分析上下文的先前执行的分析分支的所述列表是利用语义相似性来标识的,所述语义相似性是先前执行的分析分支和在所述数据分析中当前正在被执行的所述分析步骤的确定的所述分析上下文之间的语义相似性。
4.根据权利要求1所述的方法,其中所述先前执行的分析分支是在包括用以在数据分析中执行步骤的所述集合的参数的数据分析中的存储的先前执行的步骤的集合。
5.根据权利要求1所述的方法,其中基于与关联于标识的所述列表中的每个先前执行的分析分支的分析树中的每个先前执行的分析分支相关联的相似性指标评级,标识最相似的先前执行的分析分支的集合的步骤进一步包括以下步骤:
针对标识的所述列表中的每个先前执行的分析分支,标识与关联于相似于确定的所述分析上下文的先前执行的分析分支的标识的所述列表中的先前执行的所述分析分支的所述分析树中的每个其他先前执行的分析分支相关联的存储的相似性指标,
其中所述相似性指标评级是基于从分析分支到多矢量空间中的其他分析分支以及存储的相关联的相对应的先前执行的所述分析分支的相对距离来计算的,以及
其中在标识的所述集合中的先前执行的分析分支的数量是基于用户定义的配置。
6.根据权利要求1所述的方法,其中基于标识的所述集合中的所述先前执行的分析分支的分析上下文,提供针对当前正在被执行的所述分析步骤的分析推荐的所述步骤进一步包括以下步骤:
通过向当前正在执行的所述分析步骤应用所述先前执行的分析分支的所述分析上下文的所述属性中的一个或者多个属性,确定对应于标识的所述集合中的先前执行的所述分析分支中的每一个分析分支的分析推荐;以及
提供确定的所述分析推荐中的每一个分析推荐。
7.一种用于基于上下文在数据分析中提供推荐的计算机系统,所述计算机系统包括:
一个或者多个计算机处理器;
一个或者多个计算机可读存储介质;以及
在所述计算机可读存储介质上存储的、由所述一个或者多个处理器中的至少一个处理器执行的程序指令,所述程序指令包括:
用于确定在数据分析中当前正在被执行的分析步骤的分析上下文的程序指令;
用于标识相似于确定的所述分析上下文的先前执行的分析分支的列表的程序指令,其中分析分支是对应于分析上下文的属性的分析步骤的集合;
用于基于与关联于标识的所述列表中的每个先前执行的分析分支的分析树中的每个先前执行的分析分支相关联的相似性指标评级,标识最相似的先前执行的分析分支的集合的程序指令,其中分析树是共享共同分析步骤的分析分支的集合;以及
用于基于标识的所述集合中的所述先前执行的分析分支的分析上下文,提供针对当前正在被执行的所述分析步骤的分析推荐的程序指令。
8.根据权利要求7所述的计算机系统,
其中分析上下文是表征分析的属性的集合,以及
其中在分析上下文的确定和定义中利用的所述属性包括以下中的一个或者多个:名称、注释、数据源、概念、测量、层级、过滤器、成员和分析参数。
9.根据权利要求7所述的计算机系统,其中相似于确定的所述分析上下文的先前执行的分析分支的所述列表是利用语义相似性来标识的,所述语义相似性是在先前执行的分析分支和所述数据分析中当前正在被执行的所述分析步骤的确定的所述分析上下文之间的语义相似性。
10.根据权利要求7所述的计算机系统,其中所述先前执行的分析分支是在包括用以在数据分析中执行步骤的所述集合的参数的数据分析中的存储的先前执行的步骤的集合。
11.根据权利要求7所述的计算机系统,其中用于基于与关联于标识的所述列表中的每个先前执行的分析分支的分析树中的每个先前执行的分析分支相关联的相似性指标评级,标识最相似的先前执行的分析分支的集合的程序指令进一步包括以下程序指令:
针对标识的所述列表中的每个先前执行的分析分支,标识与关联于相似于确定的所述分析上下文的先前执行的分析分支的标识的所述列表中的先前执行的所述分析分支的所述分析树中的每个其他先前执行的分析分支相关联的存储的相似性指标,
其中所述相似性指标评级是基于从分析分支到多矢量空间中的其他分析分支以及存储的相关联的相对应的先前执行的所述分析分支的相对距离来计算的,以及
其中在标识的所述集合中的先前执行的分析分支的数量是基于用户定义的配置。
12.根据权利要求7所述的计算机系统,其中基于标识的所述集合中的所述先前执行的分析分支的分析上下文,提供针对当前正在被执行的所述分析步骤的分析推荐的所述程序指令进一步包括以下程序指令:
通过向当前正在执行的所述分析步骤应用所述先前执行的分析分支的所述分析上下文的所述属性中的一个或者多个属性,确定对应于标识的所述集合中的先前执行的所述分析分支中的每一个分析分支的分析推荐;以及
提供确定的所述分析推荐中的每一个分析推荐。
CN201410664712.3A 2013-12-17 2014-11-19 用于基于上下文在数据分析中处理推荐的方法和系统 Expired - Fee Related CN104714998B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/109,373 US20150170067A1 (en) 2013-12-17 2013-12-17 Determining analysis recommendations based on data analysis context
US14/109,373 2013-12-17

Publications (2)

Publication Number Publication Date
CN104714998A true CN104714998A (zh) 2015-06-17
CN104714998B CN104714998B (zh) 2018-02-02

Family

ID=53368929

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410664712.3A Expired - Fee Related CN104714998B (zh) 2013-12-17 2014-11-19 用于基于上下文在数据分析中处理推荐的方法和系统

Country Status (2)

Country Link
US (2) US20150170067A1 (zh)
CN (1) CN104714998B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108293175A (zh) * 2015-11-17 2018-07-17 三星电子株式会社 装置和用于提供其切换的方法
CN108885628A (zh) * 2016-03-28 2018-11-23 三菱电机株式会社 数据分析方法候选决定装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417304B (zh) * 2020-12-10 2023-06-23 北方工业大学 一种用于构建数据分析流程的数据分析服务推荐方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101430735A (zh) * 2008-11-13 2009-05-13 中国农业大学 一种保护性耕作模式选择方法
US20090150319A1 (en) * 2007-12-05 2009-06-11 Sybase,Inc. Analytic Model and Systems for Business Activity Monitoring
US20090193391A1 (en) * 2008-01-29 2009-07-30 Intuit Inc. Model-based testing using branches, decisions , and options
CN101908191A (zh) * 2010-08-03 2010-12-08 深圳市她秀时尚电子商务有限公司 应用于电子商务的数据分析方法及系统
US20120144325A1 (en) * 2010-12-01 2012-06-07 Microsoft Corporation Proposing visual display components for processing data
CN102681834A (zh) * 2010-10-22 2012-09-19 微软公司 对数据应用分析模式

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4622013A (en) * 1984-05-21 1986-11-11 Interactive Research Corporation Interactive software training system
US4730259A (en) * 1985-03-01 1988-03-08 Gallant Stephen I Matrix controlled expert system producible from examples
US5005143A (en) * 1987-06-19 1991-04-02 University Of Pennsylvania Interactive statistical system and method for predicting expert decisions
US5574828A (en) * 1994-04-28 1996-11-12 Tmrc Expert system for generating guideline-based information tools
US6460036B1 (en) * 1994-11-29 2002-10-01 Pinpoint Incorporated System and method for providing customized electronic newspapers and target advertisements
US6029195A (en) * 1994-11-29 2000-02-22 Herz; Frederick S. M. System for customized electronic identification of desirable objects
JP3116851B2 (ja) * 1997-02-24 2000-12-11 日本電気株式会社 情報フィルタリング方法及びその装置
JP3338374B2 (ja) * 1997-06-30 2002-10-28 松下電器産業株式会社 演算処理方法および装置
US7272815B1 (en) * 1999-05-17 2007-09-18 Invensys Systems, Inc. Methods and apparatus for control configuration with versioning, security, composite blocks, edit selection, object swapping, formulaic values and other aspects
US7089530B1 (en) * 1999-05-17 2006-08-08 Invensys Systems, Inc. Process control configuration system with connection validation and configuration
US6754883B2 (en) * 1999-08-24 2004-06-22 Ge Medical Systems Information Technologies, Inc. Modular analysis and standardization system
US20030036683A1 (en) * 2000-05-01 2003-02-20 Kehr Bruce A. Method, system and computer program product for internet-enabled, patient monitoring system
WO2002008948A2 (en) * 2000-07-24 2002-01-31 Vivcom, Inc. System and method for indexing, searching, identifying, and editing portions of electronic multimedia files
US20020031195A1 (en) * 2000-09-08 2002-03-14 Hooman Honary Method and apparatus for constellation decoder
US7970640B2 (en) * 2002-06-12 2011-06-28 Asset Trust, Inc. Purchasing optimization system
US8650079B2 (en) * 2004-02-27 2014-02-11 Accenture Global Services Limited Promotion planning system
US7412626B2 (en) * 2004-05-21 2008-08-12 Sap Ag Method and system for intelligent and adaptive exception handling
US7545748B1 (en) * 2004-09-10 2009-06-09 Packeteer, Inc. Classification and management of network traffic based on attributes orthogonal to explicit packet attributes
US7966327B2 (en) * 2004-11-08 2011-06-21 The Trustees Of Princeton University Similarity search system with compact data structures
US7885844B1 (en) * 2004-11-16 2011-02-08 Amazon Technologies, Inc. Automatically generating task recommendations for human task performers
US8510329B2 (en) * 2005-05-25 2013-08-13 Experian Marketing Solutions, Inc. Distributed and interactive database architecture for parallel and asynchronous data processing of complex data and for real-time query processing
US7444191B2 (en) * 2005-10-04 2008-10-28 Fisher-Rosemount Systems, Inc. Process model identification in a process control system
US8498915B2 (en) * 2006-04-02 2013-07-30 Asset Reliance, Inc. Data processing framework for financial services
JP4898581B2 (ja) * 2007-07-12 2012-03-14 株式会社日立製作所 ユーザインターフェース方法、表示装置、および、ユーザインターフェースシステム
US8065251B2 (en) * 2007-09-28 2011-11-22 Fisher-Rosemount Systems, Inc. Dynamic management of a process model repository for a process control system
US8190406B2 (en) * 2008-11-26 2012-05-29 Microsoft Corporation Hybrid solver for data-driven analytics
CN101957828B (zh) * 2009-07-20 2013-03-06 阿里巴巴集团控股有限公司 一种对搜索结果进行排序的方法和装置
US8255846B2 (en) * 2009-08-18 2012-08-28 International Business Machines Corporation Development tool for comparing netlists
US20120066138A1 (en) * 2009-08-24 2012-03-15 Waldeck Technology, Llc User affinity concentrations as social topography
US8909624B2 (en) * 2011-05-31 2014-12-09 Cisco Technology, Inc. System and method for evaluating results of a search query in a network environment
US8850268B2 (en) * 2011-11-23 2014-09-30 Brainlab Ag Analysis of system test procedures for testing a modular system
US10366335B2 (en) * 2012-08-31 2019-07-30 DataRobot, Inc. Systems and methods for symbolic analysis
US8880495B2 (en) * 2012-10-16 2014-11-04 Michael J. Andri Search query expansion and group search
US9129227B1 (en) * 2012-12-31 2015-09-08 Google Inc. Methods, systems, and media for recommending content items based on topics
US9355160B2 (en) * 2013-02-08 2016-05-31 Wolfram Alpha Llc Automated data analysis
AU2013378061A1 (en) * 2013-02-14 2015-08-20 Ringit, Inc. Recommendation system based on group profiles of personal taste

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090150319A1 (en) * 2007-12-05 2009-06-11 Sybase,Inc. Analytic Model and Systems for Business Activity Monitoring
US20090193391A1 (en) * 2008-01-29 2009-07-30 Intuit Inc. Model-based testing using branches, decisions , and options
CN101430735A (zh) * 2008-11-13 2009-05-13 中国农业大学 一种保护性耕作模式选择方法
CN101908191A (zh) * 2010-08-03 2010-12-08 深圳市她秀时尚电子商务有限公司 应用于电子商务的数据分析方法及系统
CN102681834A (zh) * 2010-10-22 2012-09-19 微软公司 对数据应用分析模式
US20120144325A1 (en) * 2010-12-01 2012-06-07 Microsoft Corporation Proposing visual display components for processing data

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108293175A (zh) * 2015-11-17 2018-07-17 三星电子株式会社 装置和用于提供其切换的方法
CN108885628A (zh) * 2016-03-28 2018-11-23 三菱电机株式会社 数据分析方法候选决定装置

Also Published As

Publication number Publication date
US20150170067A1 (en) 2015-06-18
US20150170068A1 (en) 2015-06-18
CN104714998B (zh) 2018-02-02

Similar Documents

Publication Publication Date Title
Nooy et al. Exploratory social network analysis with Pajek
Liu et al. Coreflow: Extracting and visualizing branching patterns from event sequences
Khan et al. An analysis of the barriers to the proliferation of M-Commerce in Qatar: A relationship modeling approach
Owusu et al. Determinants of business intelligence systems adoption in developing countries: An empirical analysis from Ghanaian Banks
US20080167951A1 (en) Method and system for determining offering combinations in a multi-product environment
US10248974B2 (en) Assessing probability of winning an in-flight deal for different price points
US20150356658A1 (en) Systems And Methods For Serving Product Recommendations
US20200234218A1 (en) Systems and methods for entity performance and risk scoring
US20210182900A1 (en) Augmenting missing values in historical or market data for deals
WO2016162863A1 (en) Qualitatively planning, measuring, making effecient and capitalizing on marketing strategy
US10902446B2 (en) Top-down pricing of a complex service deal
Sampath et al. A decision-making framework for project portfolio planning at Intel Corporation
Khan et al. Effects of time-inconsistent preferences on information technology infrastructure investments with growth options
CN113792134B (zh) 一种基于数字孪生技术的用户服务方法及系统
CN104714998A (zh) 用于基于上下文在数据分析中处理推荐的方法和系统
US11586619B2 (en) Natural language analytics queries
WO2020150597A1 (en) Systems and methods for entity performance and risk scoring
US10671601B2 (en) Platform for consulting solution
CN114818843A (zh) 数据分析的方法、装置和计算设备
CN111784091A (zh) 用于处理信息的方法和装置
US10521751B2 (en) Using customer profiling and analytics to understand, rank, score, and visualize best practices
CN112133420A (zh) 数据处理方法、装置和计算机可读存储介质
US20220405603A1 (en) Systems and methods for determining explainability of machine predicted decisions
US20230298083A1 (en) Commerce-based shopping experience with digital twin simulation infusion
Kala et al. IJIKM Volume 19, 2024–Table of Contents

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180202

Termination date: 20181119

CF01 Termination of patent right due to non-payment of annual fee