CN105740311A - 数据整理的系统和方法 - Google Patents

数据整理的系统和方法 Download PDF

Info

Publication number
CN105740311A
CN105740311A CN201510993830.3A CN201510993830A CN105740311A CN 105740311 A CN105740311 A CN 105740311A CN 201510993830 A CN201510993830 A CN 201510993830A CN 105740311 A CN105740311 A CN 105740311A
Authority
CN
China
Prior art keywords
data
sample
user
configuration parameter
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510993830.3A
Other languages
English (en)
Other versions
CN105740311B (zh
Inventor
M.楚穆拉
I.伊万诺夫
V.库马
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Business Objects Software Ltd
Original Assignee
Business Objects Software Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Business Objects Software Ltd filed Critical Business Objects Software Ltd
Publication of CN105740311A publication Critical patent/CN105740311A/zh
Application granted granted Critical
Publication of CN105740311B publication Critical patent/CN105740311B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04847Interaction techniques to control parameter settings, e.g. interaction with sliders or dials

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

在一些示例性实施例中,可以使图形用户界面(GUI)在用户的计算设备上显示。GUI可以被配置为使得用户能够提交数据集的标识和至少一个配置参数。可以经由计算设备上的GUI接收数据集的标识、至少一个配置参数和至少一个整理参数。可以基于至少一个配置参数来配置采样算法。可以使用所配置的采样算法从数据集生成数据的样本。可以基于至少一个整理参数对数据的样本执行至少一个数据整理操作。

Description

数据整理的系统和方法
技术领域
本申请一般涉及数据处理的技术领域,并且在各种实施例中,涉及数据整理(wrangling)的系统和方法。
背景技术
数据整理是将数据从一种原始形式转换或映射成另一种格式从而数据容易用于分析的过程,诸如将非结构化数据清理(cleaning)成列格式。例如,在数据整理期间,用户可能希望将日期时间值分割成两个单独的列,以特定的方式格式化日期,或者甚至删除值的时间部分以节省空间。数据整理的另一例子是将日志文件数据与用户元数据合并,从而可以理解正在执行动作的用户的背景。
对于在千万亿字节(petabytes)规模的大数据集,存在的问题是,在考虑时间和质量之间的权衡的情况下如何创建数据集的智能代表性示例。重要的是创建作为真正数据集的子集的样本数据集,因为实际上不可能在单个台式计算机上存储整个数据集。自助服务用户理想地不希望在开始创建整理操作之前等待数天来产生样本数据集。重要的是获得高质量的代表性的样本数据集以对其执行操作,以使得用户不会在调度作业的多次迭代方面浪费时间。例如,如果用户仅对代表来自一个月的第一天的日志文件的目录中的第一文件采样并且该日志文件不包含任何记录的错误,则这可能在创建整理操作时引起逻辑错误。记录的错误值的格式将是意想不到的,并且导致将生成错误的整理输出。
还存在的问题是,如何有效地向用户传达执行整理操作和可视化是对采样数据,而不是对完整的数据集,执行的。例如,在以下两种情况下数据不包括整个数据集时,对于启动与他或她的同事共享不基于采样数据的图表的数据分析、或者对于数据科学家开始实施预测算法,可能是有害的。然而,用户可能想要使用相同的分析工具来获得可视化看起来与真实数据一样的感觉。
发明内容
根据本公开的一方面,提供了一种系统,包括:配置模块,能够在至少一个处理器上执行,被配置为:使图形用户界面(GUI)在用户的计算设备上显示,GUI被配置为使得用户能够提交数据集的标识、至少一个配置参数和至少一个整理参数;经由计算设备上的GUI接收数据集的标识、所述至少一个配置参数和所述至少一个整理参数;基于所述至少一个配置参数来配置采样算法;以及采样模块,被配置为使用所配置的采样算法从数据集生成数据的样本。
根据本公开的另一方面,提供了一种计算机实施的方法,包括:使图形用户界面(GUI)在用户的计算设备上显示,GUI被配置为使得用户能够提交数据集的标识、至少一个配置参数和至少一个整理参数;经由计算设备上的GUI接收数据集的标识、所述至少一个配置参数和所述至少一个整理参数;基于所述至少一个配置参数,由具有存储器和至少一个处理器的机器配置采样算法;以及使用所配置的采样算法从数据集生成数据的样本。
根据本公开的另一方面,提供了一种有形地具体实现指令集的非临时性机器可读存储介质,当所述指令集被至少一个处理器执行时使所述至少一个处理器执行操作,所述操作包括:使图形用户界面(GUI)在用户的计算设备上显示,GUI被配置为使得用户能够提交数据集的标识、至少一个配置参数和至少一个整理参数;经由计算设备上的GUI接收数据集的标识、所述至少一个配置参数和所述至少一个整理参数;基于所述至少一个配置参数来配置采样算法;以及使用所配置的采样算法从数据集生成数据的样本。
附图说明
本公开的一些示例性实施例通过举例的方式示出,而不限于附图中的图,在附图中相同的参考标记指示相同的元件,而且在附图中:
图1是示出根据一些示例性实施例的客户端-服务器系统的网络图;
图2是示出根据一些示例性实施例的企业应用平台中的企业应用和服务的框图;
图3是示出根据一些示例性实施例的数据整理系统的框图;
图4示出了根据一些示例性实施例的被配置为使得用户能够提供数据集的标识和至少一个配置参数的图形用户界面(GUI);
图5示出了根据一些示例性实施例的被配置为使得用户能够提供至少一个整理参数的GUI;
图6示出了根据一些示例性实施例的显示具有低质量值的数据的样本的可视化的GUI;
图7示出了根据一些示例性实施例的显示具有中等质量值的数据的样本的可视化的GUI;
图8示出了根据一些示例性实施例的显示具有高质量值的数据的样本的可视化的GUI;
图9是示出根据一些示例性实施例的数据整理方法的流程图;
图10是示出根据一些示例性实施例的提供采样数据的可视化的方法的流程图;
图11是示出根据一些示例性实施例的移动设备的框图;以及
图12是根据一些示例性实施例的本文描述的方法可以在其上执行的示例性计算机系统的框图。
具体实施方式
公开了数据整理的示例方法和系统。在以下描述中,出于解释的目的,许多具体细节被阐述以便提供对示例性实施例的彻底理解。然而,将显而易见的是,对于本领域技术人员而言,可以在没有这些具体细节的情况下实践这些实施例。
本公开提供了使得每个用户能够配置他或她自己的从数据集对数据采样的采样策略的功能。由于每个用户最佳地判断他或她正在处理的(多个)数据集和任务表示,以及诸如定时这样的问题,因此使用户能够配置采样算法以使得用户能够找到实现执行时间对样本质量的最好平衡。另外,本公开提供了在样本的可视化中向用户指示正在呈现给他们的样本的质量的功能。
在一些示例性实施例中,图形用户界面(GUI)在用户的计算设备上显示。GUI被配置为使得用户能够提交数据集的标识、至少一个配置参数和至少一个整理参数。数据源的标识、(多个)配置参数和整理参数经由GUI接收。采样算法是基于(多个)配置参数来配置的。来自数据集的数据的样本是使用所配置的采样算法来生成的。至少一个数据整理操作是基于(多个)整理参数对数据的样本执行的。
在一些示例性实施例中,采样算法的配置是响应于与由用户经由GUI提供的输入相对应的用户生成的中断而被触发的。
在一些示例性实施例中,配置采样算法包括基于(多个)配置参数来生成查询脚本,其中查询脚本被配置为响应于查询脚本被执行而从数据集对数据采样。
在一些示例性实施例中,(多个)配置参数包括被配置为将生成数据样本的执行时间限制在由用户指示的最大时间量之内的时间参数、被配置为将样本的大小限制在由用户指示的数据项的最大数目之内的数据量参数和被配置为将样本大小限制在由用户指示的数据集的最大百分比之内的数据集百分比参数中的一个或多个的任意组合。
在一些示例性实施例中,所生成的数据的样本被发送到被配置为生成数据的视觉表示的数据可视化软件工具,数据的样本的质量值是基于(多个)配置参数确定的,而且质量值被发送到数据可视化软件工具。数据可视化软件工具确定数据的样本的原始可视化,基于原始可视化的修改来生成数据的样本的修改的可视化,其中所述修改基于质量值,并且数据可视化软件工具使样本的修改的可视化被显示在用户的计算设备上。在一些示例性实施例中,确定质量值包括计算被包括在数据的样本中的数据集的量,以及基于所计算的量来确定质量值。
本文所公开的方法或实施例可以被实现为具有一个或多个模块(例如,硬件模块或软件模块)的计算机系统。这样的模块可以由计算机系统的一个或多个处理器执行。在一些示例性实施例中,非临时性计算机可读存储设备可以存储指令集,当所述指令集被至少一个处理器执行时使所述至少一个处理器执行本公开内所讨论的操作和方法步骤。
图1是示出根据一些示例性实施例的客户端-服务器系统100的网络图。在企业应用平台112的示例性形式中,平台(例如,机器和软件)经由网络114(例如,因特网)向一个或多个客户端提供服务器端功能。图1示出了,例如,具有编程客户端118(例如,浏览器)的客户端机器116、具有小型设备网络客户端120(例如,没有脚本引擎的浏览器)的小型设备客户端机器122、以及具有编程客户端119的客户端/服务器机器117。
具体转向示例性企业应用平台112,网络服务器124和应用程序接口(API)服务器125可以耦合到应用程序服务器126,并且向其提供网络和编程接口。顺次地,应用服务器126可以耦合到一个或多个数据库服务器128,便于访问一个或多个数据库130。交叉功能服务132可以包括关系数据库模块以提供用于访问(多个)数据库130的支持功能,所述(多个)数据库130包括用户接口库136。网络服务器124、API服务器125、应用服务器126和数据库服务器128可以托管(host)交叉功能服务132。应用服务器126还可以托管域应用134。
交叉功能服务132利用企业应用平台112向用户和进程提供服务。例如,交叉功能服务132可以向操作客户端机器116、客户端/服务器计算机117和小型设备客户端机器122的用户提供入口服务(例如,网络服务)、数据库服务和到域应用134的连接。另外,交叉功能服务132可以利用现有的交叉功能服务132和域应用134来提供用于将增强递送到现有应用以及用于集成第三方和遗留应用的环境。而且,尽管图1中所示的系统100采用客户端-服务器架构,但是本公开的实施例当然不限于这样的架构,并且同样也可以用于发现分布式或对等架构中的应用。
企业应用平台112可以利用并发活动来实现划分级别操作。例如,企业应用平台112可以实现划分级别锁定、方案锁定介质,管理并发活动的活动日志,按划分级别来生成和维持统计,以及有效地构建全局索引。下面将结合图2更详细地描述图1的企业应用程序平台112。
图2是示出根据示例性实施例的企业应用平台112中的企业应用和服务的框图。企业应用平台112可以包括交叉功能服务132和域应用134。交叉功能服务132可以包括入口模块140、关系数据库模块142、连接器和消息模块144、API模块146和开发模块148。
入口模块140可以使单个点能够访问客户端机器116、小型设备客户端机器122和客户端/服务器计算机117的其他交叉功能服务132和域应用134。入口模块140可以被用于处理、创造(author)和维护将呈现内容(例如,用户界面元素和导航控件)给用户的网页。此外,入口模块140可以使用户具有角色,即将角色与用户用于执行任务的具体环境相关联的结构,利用服务并且在确定的范围内与其他用户交换信息。例如,角色可以确定可用于用户的内容和用户可以执行的活动。入口模块140包括生成模块、通信模块、接收模块和再生模块。此外,入口模块140可以符合网络服务标准和/或利用各种互联网技术,包括Java、J2EE、SAP高级业务应用编程语言(ABAP)和WebDynpro、XML、JCA、JAAS、X.509、LDAP、WSDL、WSRR、SOAP、UDDI和Microsoft.NET。
关系数据库模块142可以访问(多个)数据库130,其包括用户界面库136。关系数据库模块142可以提供对于对象关系映射、数据库独立性和分布式计算的支持。关系数据库模块142可以被用于添加、删除、更新和管理数据库元素。此外,关系数据库模块142可以符合数据库标准和/或利用各种数据库技术,包括SQL、SQLDBC、Oracle、MySQL、Unicode、JDBC等。
连接器和消息模块144可以通过提供公共消息应用处理接口来使能在由交叉功能服务132和域应用134所利用的不同类型的消息系统上进行通信。连接器和消息模块144可以使得能够在企业应用平台112上进行异步通信。
API模块146可以通过将接口暴露给作为服务的现有的和新的应用来使得能够开发基于服务的应用。存储库可以被包括在平台中的中心位置,以便在构建应用时找到可用的服务。
开发模块148可以在企业应用平台112上为开发环境提供用于添加、集成、更新和扩展的软件组件,而不会影响现有的交叉功能服务132和域应用134。
转向域应用134,客户关系管理应用150可以使得能够访问相关的个性化信息,并且可以便于从多个数据源和业务处理收集和存储相关的个性化信息。正在负责将买家发展为长期客户的企业人员可以利用客户关系管理应用150在整个客户合约周期中向买方提供帮助。
企业人员可以利用财务应用152和业务处理来在企业应用平台112内追踪和控制财务交易。财务应用152可以方便与财务管理相管理的操作、分析和协作任务的执行。具体地,财务应用152可以使得能够执行与财务核算、计划、预测和管理财务成本相关的任务。
人力资源应用154可以被企业人员和业务处理用来管理、部署和追踪企业人员。具体地,人力资源应用154可以使得能够基于实时信息来分析人力资源问题并且方便人力资源决策。
产品生命周期管理应用156可以使能在产品的整个生命周期内管理产品。例如,产品生命周期管理应用156可以使得在业务伙伴之间能够协同工程、定制产品开发、项目管理、资产管理和质量管理。
供应链管理应用158可以使能监测在供应链中观察到的执行。供应链管理应用158可以方便遵守生产计划,并按时交付产品和服务。
第三方应用160以及遗留应用162可以在企业应用平台112上与域应用134整合并且利用交叉功能服务132。
图3是示出根据一些示例性实施例的数据整理系统300的组件的框图。在一些示例性实施例中,数据整理系统300包括配置模块310、采样模块320、数据整理模块330、数据可视化软件工具340、样本质量模块350以及一个或多个数据库360中的一个或多个的任意组合。模块310、320、330、340和350以及(多个)数据库360可以驻留在具有存储器和至少一个处理器(未示出)的机器上。在一些示例性实施例中,模块310、320、330、340和350以及(多个)数据库360驻留在同一机器上,而在其它示例性实施例中,模块310、320、330、340和350以及(多个)数据库360中的一个或多个驻留在经由网络(例如,图1中的网络114)相互通信的单独的远程机器上。在一些示例性实施例中,模块310、320、330、340和350以及(多个)数据库360可以被并入图1的企业应用平台112中(例如,在(多个)应用服务器126上)。然而,可以预期的是,其他配置也在本公开的范围之内。
在一些示例性实施例中,配置模块310被配置为使图形用户界面(GUI)在用户370的计算设备375上显示。计算设备375的例子包括,但不限于,台式计算机、膝上型计算机、平板计算机和智能电话。GUI可以包括和显示不同的UI元素,作为用户交互的不同阶段(例如,经由被显示给用户370的GUI的不同页面)。
在一些示例性实施例中,GUI被配置为使得用户370能够提交数据集的标识、至少一个配置参数和至少一个整理参数。图4示出了根据一些示例性实施例的被配置为使得用户能够提供数据集的标识410和至少一个配置参数420的GUI400。数据集的标识410可以识别可以从其中获得数据样本的数据源。在一些示例性实施例中,数据集可以驻留在数据源(例如,图3的数据源380)中,其可以包括一个或多个数据库。在一些示例性实施例,数据源380驻留在与数据整理系统300(例如,模块310、320、330、340和350以及(多个)数据库360)的组件不同的机器上,在数据整理系统300的组件驻留在其上的(多个)机器的外部并且与之远离。数据集可以包括单个文件,但是也可以包括文件的目录。在一些示例性实施例中,用户370可以从经由GUI400显示的一个或多个数据集的列表中选择数据集410。可替代地,用户370可以在经由GUI400显示的字段中输入数据集的标识410。使得用户能够提供数据集410的标识的其他方法也在本公开的范围之内。
GUI400可以使得用户能够通过显示用户可以与其进行交互的一个或多个UI元素,诸如单选按钮和用于输入(多个)配置参数420的相应数据的字段,来提供(多个)配置参数420。(多个)配置参数可以包括被配置为将样本的大小限制在由用户指示的数据项的最大数目(例如,取最大900行)之内的数据量参数、被配置为将样本大小限制在由用户指示的数据集的最大百分比(例如,取数据集的30%)之内的数据集百分比参数、被配置为将样本限制为数据集的指定顺序(例如,取最初的900行)的顺序参数、被配置为随机化从其中对数据采样的位置(例如,取900个随机行)的随机化参数、以及被配置为将生成数据样本的执行时间限制在由用户指示的最大时间量(例如,取为10分钟)之内的时间参数中的一个或多个的任意组合。其他配置参数也在本公开的范围之内。在一些示例性实施例中,GUI400可以提供一个或多个推荐的默认配置参数420。例如,在图4中,获取所识别的数据集的最初20000行的默认配置参数420可以被预先选择用于用户370。用户370然后可以根据他或她的决定来修改(多个)配置参数420,以适合他或她对于给定的情况的具体优选。
图5示出了根据一些示例性实施例的被配置为使得用户370能够提供一个或多个整理参数510的GUI400。GUI400可以使得用户能够通过显示用户可以与其进行交互的一个或多个UI元素,诸如单选按钮和用于输入(多个)整理参数510的相应数据的字段,来提供(多个)整理参数510。(多个)整理参数510可以被配置为确定对于采样的数据执行哪些数据整理操作。这样的数据整理操作可以包括,但不限于,将非结构化原始数据清理为指定格式、将原始数据排序或解析为预定的数据结构、为数据形成一个或多个不同的维度和/或度量、以及将数据与元数据合并。其他数据整理操作也在本公开的范围之内。
返回参考图3,在一些示例性实施例中,配置模块310还被配置为经由计算设备375上的GUI400接收数据集410的标识和(多个)配置参数420,并且基于(多个)配置参数420来配置采样算法。配置模块310可以被配置为响应于与由用户经由GUI400提供的输入相对应的用户生成的中断而触发采样算法的配置,所述输入诸如由用户选择“提交”按钮来提交数据集410的标识和(多个)配置参数420。在一些示例性实施例中,配置模块310被配置为基于(多个)配置参数420通过生成查询脚本来配置采样算法。查询脚本可以被配置为响应于查询脚本被执行而从数据集对数据采样。
在一些示例性实施例中,配置模块310还被配置为提供使得用户370能够输入他或她自己的采样算法的框架。例如,GUI400可以向用户370提供用于插入或上传采样算法的代码的一个或多个UI元素。
在一些示例性实施例中,采样模块320被配置为使用所配置的采样算法从数据集生成数据的样本。因此,用户提供的(多个)配置参数420可以被用来确定来自数据集的哪些数据被采样。生成的数据的样本然后可以被存储在(多个)数据库360中以供以后使用,诸如在数据整理操作或数据可视化操作期间使用。
在一些示例性实施例中,数据整理模块330被配置为基于(多个)整理参数510对数据的样本执行至少一个数据整理操作。如先前所讨论的,(多个)数据整理操作可以包括,但不限于,将非结构化原始数据清理为指定格式,将原始数据排序或解析为预定的数据结构、为数据形成一个或多个不同的维度和/或度量、以及将数据与元数据合并。在一些示例性实施例中,过滤器和变换可以被应用于原始数据以创建数据集,其可以包括样本数据行。统计也可以被生成,其可以包括这样的方面,诸如原始数据中有多少行、原始数据有多大、可用维度或属性的数目、各种统计分布、或任何其他有关的统计度量。包括数据集和所生成的统计信息的元数据可以由用户,诸如用户370,来利用。其他数据整理操作也在本公开的范围内。
在一些示例性实施例中,数据可视化软件工具340被配置为生成数据(诸如采样的数据)的视觉表示,所述数据可以从采样模块320发送到数据可视化软件工具340。数据可视化软件工具340可以包括被配置为生成数据的可视化的任何软件工具。可视化可以包含包括度量和维度的数据的图形表示,诸如图表。度量可以是可以对其进行计算(例如,求和、计数、平均、最小、最大)的任何属性。维度可以是对度量进行分类或加标签的结构。其他类型的可视化也在本公开的范围之内。
在数据整理阶段,可视化可以作为样本预览呈现给用户370,从而用户370可以在长时间运行的调度操作完成之前体验到可视化将是什么样子。这个特征可以通过数据整理模块330和/或数据可视化软件工具340来实现。
在一些示例性实施例中,样本质量模块350被配置为基于(多个)配置参数420来确定数据的样本的质量值。在向用户370指示可视化是基于样本而不是完整的数据集这一事实的同一时间,这个样本的质量值可以被数据可视化软件工具340用来生成和显示采样的数据的可视化。这个质量值也可以被数据可视化软件工具340用来向用户370指示样本的质量或置信水平,其可以基于样本占完整数据集的多少或以其他方式表示、样本是从数据集的哪里获得的、以及样本是如何获得的。因此,质量值可以基于(多个)配置参数420来确定,因为(多个)配置参数420可以影响样本的所有的这些因素。此外,样本的质量值也可以基于样本的基数的水平的确定。例如,样本质量模块350可以计算或以其它方式确定在样本中包括完整的数据集的不同值的哪些部分(例如,多少比例、什么数目)。样本所包括的数据集的不同值的部分越高,可以确定质量值越高。
样本质量模块350可以将质量值发送到数据可视化软件工具340。数据可视化软件工具340可以被配置为确定数据的样本的原始可视化。这种原始可视化可以是可视化的干净版本(例如,没有添加视觉效果的采样的数据的标准图形表示)。数据可视化软件工具340可以基于原始可视化的修改来生成数据的样本的修改的可视化。这种修改可以包括被应用于原始可视化的视觉效果,诸如被应用于原始可视化的数据点的视觉效果。修改可以基于质量值。在一些示例性实施例中,样本质量模块350被配置为计算被包括在数据的样本中的数据集的量,并基于所计算的量来确定质量值。数据可视化软件工具340可以使样本的修改的可视化被显示在用户370的计算设备375上。
图6示出了根据一些示例性实施例的显示具有低质量值的数据的样本的可视化610的GUI600。在一个例子中,可视化610所基于的数据的样本可以仅包括它所对应的完整的数据集的7%。基于质量值为低,可视化610中的数据点被显示为极为模糊或失真,或其他方式的低图像质量。可视地表示样本的低质量值的其他方式也被包括在本公开的范围之内。
图7示出了根据一些示例性实施例的显示具有中等质量值的数据的样本的可视化710的GUI700。在一个例子中,可视化710所基于的数据的样本可以仅包括它所对应的完整的数据集的50%。基于质量值是中等的,可视化710中的数据点被显示为仅略微模糊或失真,或其他方式的中等图像质量。可视地表示样本的中等质量值的其他方式也被包括在本公开的范围之内。
图8示出了根据一些示例性实施例的显示具有高质量值的数据的样本的可视化810的GUI800。在一个例子中,可视化810所基于的数据的样本可以仅包括它所对应的完整的数据集的96%。基于质量值为高,可视化810中的数据点被显示为完全没有模糊或失真,或其他方式的高图像质量。可视地表示样本的高质量值的其他方式也被包括在本公开的范围之内。
图9是示出根据一些示例性实施例的数据整理方法900的流程图。方法900可以由处理逻辑执行,所述处理逻辑可以包括硬件(例如,电路、专用逻辑、可编程逻辑、微代码等等),软件(例如,在处理设备上运行的指令),或它们的组合。在一个示例性实施例中,方法900通过如上所述的图3的数据整理系统300,或者它的组件或模块中的一个或多个的任何组合来执行。
在操作910中,可以使GUI显示在用户的计算设备上。GUI可以使得用户能够提交数据集的标识和至少一个配置参数。在操作920中,可以经由GUI接收数据源的标识、(多个)配置参数和整理参数。(多个)配置参数可以包括被配置为将生成数据样本的执行时间限制在由用户指示的最大时间量之内的时间参数、被配置为将样本的大小限制在由用户指示的数据项的最大数目之内的数据量参数和被配置为将样本大小限制在由用户指示的数据集的最大百分比之内的数据集百分比参数中的一个或多个的任意组合。在操作930中,采样算法可以基于(多个)配置参数进行配置。采样算法的配置可以响应于与由用户经由GUI提供的输入相对应的用户生成的中断而触发。采样算法的配置可以包括基于至少一个配置参数来生成查询脚本,而且查询脚本被配置为响应于查询脚本被执行而从数据集对数据采样。在操作940中,可以使用所配置的采样算法从数据集生成数据的样本。在操作950中,GUI可以使得用户能够提交至少一个整理参数。在操作960中,可以基于(多个)整理参数对数据的样本执行至少一个数据整理操作。
可以预期的是,在本公开内所描述的任何其他功能可以被并入方法900。
图10是示出根据一些示例性实施例的提供采样数据的可视化的方法的流程图。
方法1000可以由处理逻辑执行,所述处理逻辑可以包括硬件(例如,电路、专用逻辑、可编程逻辑、微代码等等),软件(例如,在处理设备上运行的指令),或它们的组合。在一个示例性实施例中,方法1000通过如上所述的图3的数据整理系统300,或者它的组件或模块中的一个或多个的任何组合来执行。
在操作1010中,生成的数据的样本可以被发送到被配置为生成数据的视觉表示的数据可视化软件工具。在操作1020中,数据的样本的质量值可以基于(多个)配置参数来确定。确定质量值可以包括计算被包括在数据的样本中的数据集的量,并基于所计算的量来确定质量值。在操作1030中,质量值可以被发送到数据可视化软件工具。在操作1040中,数据可视化软件工具可以确定数据的样本的原始可视化。在操作1050中,数据可视化软件工具可以基于原始可视化的修改来生成数据的样本的修改的可视化。修改可以基于质量值。在操作1060中,数据可视化软件工具可以使样本的修改的可视化被显示在用户的计算设备上。
可以预期的是,在本公开内所描述的任何其他功能可以被并入方法1000。
示例性移动设备
图11是示出根据一些示例性实施例的移动设备1100的框图。移动设备1100可以包括处理器1102。处理器1102可以是适合于移动设备1100的任何各种不同类型的市售处理器(例如,XScale架构微处理器、无内部互锁流水线级(MIPS)架构处理器的微处理器、或其他类型的处理器)。存储器1104,诸如随机存取存储器(RAM)、快闪存储器或其他类型的存储器,通常能够被处理器1102访问。存储器1104可以适合于存储操作系统(OS)1106,以及应用程序1108,诸如可以将LBS提供给用户的移动位置使能应用。处理器1102可以或直接或经由适当的中介硬件耦合到显示器1110以及一个或多个输入/输出(I/O)设备1112,诸如小键盘、触摸面板传感器、麦克风等。类似地,在一些示例性实施例中,处理器1102可以耦合到与天线1116连接的收发机1114。收发机1114可以被配置为经由天线1116发送和接收蜂窝网络信号、无线数据信号或其他类型的信号,这依赖于移动设备1100的性质。此外,在一些配置中,GPS接收机1118还可以利用天线1116来接收GPS信号。
模块、组件和逻辑
某些实施例在本文中被描述为包括逻辑或数个组件、模块或机构。模块可以构成或者软件模块(例如,实现在机器可读介质上或者传输信号中的代码)、或者硬件模块。硬件模块是能够执行某些操作的有形单元并且可按一定的方式来配置或布置。在示例性实施例中,一个或多个计算机系统(例如,单机、客户端或者服务器计算机系统)或者计算机系统的一个或多个硬件模块(例如,处理器或者处理器群组)可被软件(例如,应用或应用部分)配置为进行操作来执行如本文所述的某些操作的硬件模块。
在各种实施例中,硬件模块可以以机械方式或电子方式来实现。例如,硬件模块可包括被永久地配置以执行某些操作的专用电路或逻辑(例如,作为专用处理器,例如现场可编程门阵列(FPGA)或专用集成电路(ASIC))。硬件模块也可包括由软件临时配置以执行某些操作的可编程逻辑或电路(例如,被包含在通用处理器或其他可编程处理器内)。将会明白,关于是以机械方式、还是用专用且永久配置的电路还是用临时配置的电路(例如,由软件配置)来实现硬件模块的决定可由成本和时间考虑来驱动。
因此,术语“硬件模块”应当被理解为涵盖有形实体,它是被物理地构造、永久地配置(例如,硬连线)或者临时配置(例如,编程)来按某种方式操作和/或执行本文描述的某些操作的实体。考虑硬件模块被临时配置(例如,编程)的示例,在任何一个时刻不需要配置或实例化每个模块。例如,在硬件模块包括使用软件配置的通用处理器的情况下,通用处理器可以在不同时间被配置为分别不同的硬件模块。软件可相应地将处理器配置为例如在一个时刻构成特定硬件模块并且在不同的时刻构成不同的硬件模块。
硬件模块可向其他硬件模块提供信息并且从其他硬件模块接收信息。因此,描述的硬件模块可被视为是通信耦合的。在多个这样的硬件模块同时存在的情况下,可通过连接硬件模块的信号传送(例如,经由适当的电路和总线)来实现通信。在在不同时间配置或实例化多个硬件模块的实施例中,这种硬件模块之间的通信可例如通过在这多个硬件模块能够访问的存储器结构中存储和取回信息来实现。例如,一个硬件模块可执行操作并且将该操作的输出存储在其通信耦合到的存储器设备中。另一硬件模块随后在以后某时可以访问该存储器设备以取回并处理存储的输出。硬件模块也可发起与输入或输出设备的通信,并且可对资源(例如,信息的集合)进行操作。
本文描述的示例方法的各种操作可至少部分地由被临时配置(例如,由软件)或永久配置来执行相关操作的一个或多个处理器执行。无论是临时还是永久地配置,这种处理器都可构成由处理器实现的模块,这些模块进行操作来执行一个或多个操作或功能。在一些示例性实施例中,本文中使用的模块包括处理器实现的模块。
类似地,本文描述的方法可至少部分由处理器实现。例如,方法的操作之中的至少一些可由一个或多个处理器或者由处理器实现的模块来执行。某些操作的执行可分布在一个或多个处理器之间,不仅是驻留在单个机器内,而是部署在多个机器上。在一些示例性实施例中,一个或多个处理器可以位于单个地理位置中(例如,位于家庭环境、办公室环境或者服务器群内),而在其他实施例中,处理器可分布在多个地理位置上。
一个或多个处理器也可进行操作来支持在“云计算”环境中或者作为“软件即服务”(SaaS)的相关操作的执行。例如,这些操作之中的至少一些可由一组计算机(作为包括处理器的机器的示例)来执行,其中可经由网络(例如,图1中的网络114)以及经由一个或多个适当的接口(例如,API)来访问这些操作。
示例性实施例可以被实施在数字电子电路中,或者实施在计算机硬件、固件、软件,或者它们的组合中。示例性实施例可以实施为计算机程序产品,即有形地具体实施在信息载体中的计算机程序,信息载体例如在机器可读存储设备中或者在传播的信号中,以供数据处理装置执行或者控制数据处理装置的操作,所述数据处理装置例如可编程处理装置、计算机或多个计算机。
计算机程序可以用任何形式的编程语言编写,包括汇编语言或解释语言,并且,它可以被以任何形式部署,包括作为独立的程序或者作为模块、组件、子程序或其他适于在计算环境中使用的单元。计算机程序可以被部署为在一个计算机上执行或在位于一个地点或跨过多个地点分布并被通信网络互连起来的多个计算机上执行。
在示例性实施例中,操作可以被一个或多个可编程处理器执行,所述可编程处理器执行计算机程序,以便通过对输入数据操作和生成输出来执行功能。方法操作还可以被专用逻辑电路执行,或者示例性实施例的装置可以被实施为专用逻辑电路(例如,FPGA或ASIC)。
计算机系统可以包括客户端和服务器。客户端和服务器通常相互远离,并且典型地通过通信网络交互。依靠运行在各个计算机上并且相互具有客户端-服务器关系的计算机程序,建立客户端和服务器的关系。在部署了可编程计算系统的实施例中,将要理解的是,硬件架构和软件架构二者都要考虑。具体而言,将要理解的是,在永久配置的硬件(例如,ASIC)中、在暂时配置的硬件(例如,软件和可编程处理器的组合)中、或在永久和临时配置的硬件的组合中是否实施某些功能的选择可以是设计选择。下面陈述的是可以部署在不同的示例性实施例中的硬件(例如,机器)和软件架构。
图12是根据一些示例性实施例的计算机系统1200的示例性形式的机器的框图,在该计算机系统1200中可以运行用于使机器执行此处所讨论的任一或多个方法的指令1224。在可替换的实施例中,机器操作为独立的设备或者可以连接(例如,网络连接)至其他机器。在网络连接部署中,机器可以以服务器-客户端网络环境中的服务器或客户端机器的能力操作,或者作为对等(或分布式)网络环境中的对等机器。机器可以是个人计算机(PC)、平板PC、机顶盒(STB)、个人数字助理(PDA)、蜂窝电话、web应用、网络路由器、交换机或网桥、或能够运行指定将由该机器处理的动作的指令(顺序或其他)的任意机器。而且,虽然仅示出了单一机器,但是术语“机器”还应该被认为包括单独或共同运行一组(或多组)指令以便执行此处所讨论的任一或多种方法的机器的任何集合。
示例性计算机系统1200包括处理器1202(例如,中央处理器(CPU)、图形处理器(GPU)或二者)、主存储器1204和静态存储器1206,它们通过总线1208相互通信。计算机系统1200还可以包括视频显示单元1210(例如,液晶显示器(LCD)或阴极射线管(CRT))。计算机系统1200还包括字母数字输入设备1212(例如,键盘)、用户界面(UI)导航(或游标控制)设备1214(例如,鼠标)、磁盘驱动器单元1216、信号生成设备1218(例如,扬声器)以及网络接口设备1220。
磁盘驱动器单元1216包括机器可读介质1222,在机器可读介质1222上存储有实时或利用此处描述的一个或多个方法或功能的、一组或多组数据结构和指令1224(例如,软件)。在由计算机系统1200运行指令过程中,指令1224还可以完全地或者至少部分地存在主存储器1204内和/或处理器1202内,主存储器1204和处理器1202也构成机器可读介质。指令1224还可以完全地或者至少部分地存在静态存储器1206内。
虽然在示例性实施例中将机器可读介质1222示出为单一介质,但是术语“机器可读介质”可以包括单一介质或多个介质(例如,集中式数据库或分布式数据库、和/或相关联的高速缓冲存储器和服务器),其存储一组或多组指令1224或数据结构。术语“机器可读介质”还应该被认为包括能够存储、编码或携带由机器运行且使机器执行此处所公开的一个或多个方法的指令的、或者能够存储、编码或携带由这种指令使用或与这种指令相关联的数据结构的任意临时性或非临时性介质。因此,术语“机器可读介质”应该被认为包括但不限于固态存储器、光介质和磁介质。机器可读介质的具体示例包括非易失性存储器,包括作为示例的半导体存储器设备(例如可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)和闪存设备);诸如内部硬盘和可移动磁盘的磁盘;磁光盘;光盘只读存储器(CD-ROM)和数字通用光盘(或数字视频光盘)只读存储器(DVD-ROM)盘。
指令1224还可以在使用传输介质的通信网络1226上发送或接收。指令1224可以使用网络接口设备1220和多种已知传输协议(例如,超文本传输协议(HTTP))中的任意一种进行发送。通信网络的示例包括LAN、WAN、互联网、移动电话网、POTS网络、无线数据网络(例如,WiFi和WiMax网络)。术语“传输介质”应该被认为包括能够存储、编码或携带由机器运行的指令并且包括数字或模拟通信信号的非临时性介质,或者便于这种软件进行通信的其他非临时性介质。
虽然已经参照特定的示例性实施例描述了实施例,但是将明显的是,在不脱离本发明的更宽的精神和范围的情况下,可以对这些实施例做出各种修改和改变。因此,说明书和附图应被视为说明性的而不是限制性的意义。形成本发明的一部分的附图通过举例的方式而不是限制的方式示出特定的实施例,在特定的实施例中主题可以被实践。所示的实施例被足够详细地描述,以使本领域技术人员能够实践这里所公开的教导。其他实施例可以被利用并由其衍生,从而可以做出结构上和逻辑上的替代和变化而不脱离本公开的范围。因此,这种详细的描述不应被认为具有限制意义,并且各种实施例的范围仅由所附权利要求连同这些权利要求的等同物的全部范围来定义。
尽管在这里已经示出并描述了特定的实施例,但是应当理解的是,计划用于实施相同目的的任何安排都可以取代所示的特定实施例。本公开旨在覆盖各种实施例的任何和所有改变或变体。阅读上述描述时,上述实施例和本文中没有具体描述的其他实施例的组合对本技术领域技术人员将是显而易见的。

Claims (20)

1.一种系统,包括:
配置模块,能够在至少一个处理器上执行,被配置为:
使图形用户界面(GUI)在用户的计算设备上显示,该GUI被配置为使得用户能够提交数据集的标识、至少一个配置参数和至少一个整理参数;
经由计算设备上的GUI接收数据集的标识、所述至少一个配置参数和所述至少一个整理参数;
基于所述至少一个配置参数来配置采样算法;以及
采样模块,被配置为使用所配置的采样算法从数据集生成数据的样本。
2.如权利要求1所述的系统,其中,所述配置模块还被配置为响应于与由用户经由GUI提供的输入相对应的、用户生成的中断而触发配置采样算法。
3.如权利要求1所述的系统,其中,所述配置模块还被配置为基于所述至少一个配置参数来生成查询脚本,查询脚本被配置为响应于查询脚本被执行而从数据集对数据采样。
4.如权利要求1所述的系统,其中,所述至少一个配置参数包括被配置为将生成数据样本的执行时间限制在由用户指示的最大时间量之内的时间参数。
5.如权利要求1所述的系统,其中,所述至少一个配置参数包括被配置为将样本的大小限制在由用户指示的数据项的最大数目之内的数据量参数。
6.如权利要求1所述的系统,其中,所述至少一个配置参数包括被配置为将样本大小限制在由用户指示的数据集的最大百分比之内的数据集百分比参数。
7.如权利要求1所述的系统,还包括数据可视化软件工具,被配置为生成数据的视觉表示,其中,所述采样模块还被配置为将所生成的数据的样本发送到数据可视化软件工具。
8.如权利要求7所述的系统,还包括样本质量模块,被配置为基于所述至少一个配置参数来确定数据的样本的质量值,并且将质量值发送到数据可视化软件工具,其中所述数据可视化软件工具被配置为:
确定数据的样本的原始可视化;
基于原始可视化的修改来生成数据的样本的修改的可视化,所述修改基于质量值;以及
使样本的修改的可视化被显示在用户的计算设备上。
9.如权利要求8所述的系统,其中,所述样本质量模块还被配置为:
计算被包括在数据的样本中的数据集的量;以及
基于所计算的量来确定质量值。
10.一种计算机实施的方法,包括:
使图形用户界面(GUI)在用户的计算设备上显示,该GUI被配置为使得用户能够提交数据集的标识、至少一个配置参数和至少一个整理参数;
经由计算设备上的GUI接收数据集的标识、所述至少一个配置参数和所述至少一个整理参数;
基于所述至少一个配置参数,由具有存储器和至少一个处理器的机器配置采样算法;以及
使用所配置的采样算法从数据集生成数据的样本。
11.如权利要求10所述的方法,其中,还包括响应于与由用户经由GUI提供的输入相对应的、用户生成的中断而触发配置采样算法。
12.如权利要求10所述的方法,其中,配置采样算法包括基于所述至少一个配置参数来生成查询脚本,查询脚本被配置为响应于查询脚本被执行而从数据集对数据采样。
13.如权利要求10所述的方法,其中,所述至少一个配置参数包括被配置为将生成数据样本的执行时间限制在由用户指示的最大时间量之内的时间参数。
14.如权利要求10所述的方法,其中,所述至少一个配置参数包括被配置为将样本的大小限制在由用户指示的数据项的最大数目之内的数据量参数。
15.如权利要求10所述的方法,其中,所述至少一个配置参数包括被配置为将样本大小限制在由用户指示的数据集的最大百分比之内的数据集百分比参数。
16.如权利要求10所述的方法,还包括将所生成的数据的样本发送到被配置为生成数据的视觉表示的数据可视化软件工具。
17.如权利要求16所述的方法,还包括:
基于所述至少一个配置参数来确定数据的样本的质量值;
将质量值发送到数据可视化软件工具;
由数据可视化软件工具确定数据的样本的原始可视化;
基于原始可视化的修改,由数据可视化软件工具生成数据的样本的修改的可视化,所述修改基于质量值;以及
由数据可视化软件工具使样本的修改的可视化被显示在用户的计算设备上。
18.如权利要求17所述的方法,其中,确定质量值包括:
计算被包括在数据的样本中的数据集的量;以及
基于所计算的量来确定质量值。
19.一种有形地具体实现指令集的非临时性机器可读存储介质,当所述指令集被至少一个处理器执行时使所述至少一个处理器执行操作,所述操作包括:
使图形用户界面(GUI)在用户的计算设备上显示,该GUI被配置为使得用户能够提交数据集的标识、至少一个配置参数和至少一个整理参数;
经由计算设备上的GUI接收数据集的标识、所述至少一个配置参数和所述至少一个整理参数;
基于所述至少一个配置参数来配置采样算法;以及
使用所配置的采样算法从数据集生成数据的样本。
20.如权利要求19所述的存储介质,还包括将所生成的数据的样本发送到数据可视化软件工具;
基于所述至少一个配置参数来确定数据的样本的质量值;
将质量值发送到数据可视化软件工具;
由数据可视化软件工具确定数据的样本的原始可视化;
基于原始可视化的修改,由数据可视化软件工具生成数据的样本的修改的可视化,所述修改基于质量值;以及
使样本的修改的可视化被显示在用户的计算设备上。
CN201510993830.3A 2014-12-26 2015-12-25 数据整理的系统和方法 Active CN105740311B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/583,494 2014-12-26
US14/583,494 US9779134B2 (en) 2014-12-26 2014-12-26 System and method of data wrangling

Publications (2)

Publication Number Publication Date
CN105740311A true CN105740311A (zh) 2016-07-06
CN105740311B CN105740311B (zh) 2020-08-11

Family

ID=54770762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510993830.3A Active CN105740311B (zh) 2014-12-26 2015-12-25 数据整理的系统和方法

Country Status (3)

Country Link
US (4) US9779134B2 (zh)
EP (1) EP3037989B1 (zh)
CN (1) CN105740311B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9779134B2 (en) 2014-12-26 2017-10-03 Business Objects Software Ltd. System and method of data wrangling
US10347019B2 (en) * 2015-08-31 2019-07-09 Accenture Global Solutions Limited Intelligent data munging
US10185556B2 (en) * 2017-02-22 2019-01-22 Sap Se Interactive software development kit documentation tool
TWI678656B (zh) * 2018-05-09 2019-12-01 和碩聯合科技股份有限公司 電腦系統及其介面操作方法
US10684762B2 (en) * 2018-08-27 2020-06-16 Sap Se Analytics design system
CN111221839B (zh) * 2018-11-23 2024-07-16 京东科技控股股份有限公司 数据处理方法、系统、电子设备和计算机可读存储介质
US11341274B2 (en) 2018-12-19 2022-05-24 Elasticsearch B.V. Methods and systems for access controlled spaces for data analytics and visualization
US10782860B2 (en) * 2019-02-26 2020-09-22 Elasticsearch B.V. Systems and methods for dynamic scaling in graphical user interfaces
US11477207B2 (en) 2019-03-12 2022-10-18 Elasticsearch B.V. Configurable feature level controls for data
US11240126B2 (en) 2019-04-11 2022-02-01 Elasticsearch B.V. Distributed tracing for application performance monitoring
US10756959B1 (en) 2019-04-11 2020-08-25 Elasticsearch B.V. Integration of application performance monitoring with logs and infrastructure
US11044155B2 (en) * 2019-07-31 2021-06-22 International Business Machines Corporation Utilizing unstructured data in self-organized networks
US11397516B2 (en) 2019-10-24 2022-07-26 Elasticsearch B.V. Systems and method for a customizable layered map for visualizing and analyzing geospatial data
US11853185B2 (en) * 2020-11-30 2023-12-26 Microsoft Technology Licensing, Llc Server network resource reallocation
CN112463844B (zh) * 2020-12-15 2022-10-18 北京百奥智汇科技有限公司 一种数据处理方法、装置、电子设备及存储介质
US11620264B2 (en) * 2021-08-27 2023-04-04 Rohde & Schwarz Gmbh & Co. Kg Log file processing apparatus and method for processing log file data

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1461458A (zh) * 2000-10-30 2003-12-10 迈吉尔厄思有限公司 用于分析和成像三维体数据集合的系统和方法
CN1467687A (zh) * 2002-06-20 2004-01-14 用于提供可控制的纹理采样的系统和方法
CN1494688A (zh) * 2001-02-24 2004-05-05 �Ҵ���˾ 新颖的大规模并行超级计算机
CN101002205A (zh) * 2004-04-16 2007-07-18 皇家飞利浦电子股份有限公司 数据集可视化
CN101159869A (zh) * 2006-08-30 2008-04-09 美国西门子医疗解决公司 提供代表性图像信息
CN101216846A (zh) * 2008-01-04 2008-07-09 清华大学 一种仿真数据的可视化与协同共享方法
CN101790713A (zh) * 2007-04-17 2010-07-28 番石榴技术公司 用于位置特定的多参数数据集的分析和比较的图形用户界面
US20120330631A1 (en) * 2007-02-27 2012-12-27 Exxonmobil Research And Engineering Company Method and System of Using Inferential Measurements for Abnormal Event Detection in Continuous Industrial Processes
CN103024348A (zh) * 2012-11-06 2013-04-03 前卫视讯(北京)科技发展有限公司 视频监控的运维管理系统
US20130268520A1 (en) * 2012-04-04 2013-10-10 Microsoft Corporation Incremental Visualization for Structured Data in an Enterprise-level Data Store
US8751499B1 (en) * 2013-01-22 2014-06-10 Splunk Inc. Variable representative sampling under resource constraints
US20140214495A1 (en) * 2012-09-30 2014-07-31 iVedix, Inc. Business intelligence systems and methods
US8799799B1 (en) * 2013-05-07 2014-08-05 Palantir Technologies Inc. Interactive geospatial map

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10684350B2 (en) * 2000-06-02 2020-06-16 Tracbeam Llc Services and applications for a communications network
US7716226B2 (en) * 2005-09-27 2010-05-11 Patentratings, Llc Method and system for probabilistically quantifying and visualizing relevance between two or more citationally or contextually related data objects
US8285513B2 (en) * 2007-02-27 2012-10-09 Exxonmobil Research And Engineering Company Method and system of using inferential measurements for abnormal event detection in continuous industrial processes
US20110055722A1 (en) * 2009-09-02 2011-03-03 Ludwig Lester F Data Visualization Environment with DataFlow Processing, Web, Collaboration, Advanced User Interfaces, and Spreadsheet Visualization
US9032314B2 (en) * 2010-12-01 2015-05-12 Microsoft Technology Licensing, Llc Proposing visual display components for processing data
US8473509B2 (en) * 2011-05-13 2013-06-25 General Electric Company Systems, methods, and apparatus for utility common pool database
US8447721B2 (en) * 2011-07-07 2013-05-21 Platfora, Inc. Interest-driven business intelligence systems and methods of data analysis using interest-driven data pipelines
US9563674B2 (en) * 2012-08-20 2017-02-07 Microsoft Technology Licensing, Llc Data exploration user interface
US9594814B2 (en) * 2012-09-07 2017-03-14 Splunk Inc. Advanced field extractor with modification of an extracted field
TW201426578A (zh) * 2012-12-27 2014-07-01 Ind Tech Res Inst 匿名資料集的產生方法及裝置與風險評估方法及裝置
US9299041B2 (en) * 2013-03-15 2016-03-29 Business Objects Software Ltd. Obtaining data from unstructured data for a structured data collection
US9218568B2 (en) * 2013-03-15 2015-12-22 Business Objects Software Ltd. Disambiguating data using contextual and historical information
US9262550B2 (en) * 2013-03-15 2016-02-16 Business Objects Software Ltd. Processing semi-structured data
US9471629B2 (en) * 2013-04-19 2016-10-18 Software AG USA Inc. Method and apparatus for visual dynamic discovery and analytics exploration application on static and/or real-time data using an a priori model-free process
US10262030B1 (en) * 2013-04-22 2019-04-16 Domo, Inc. Automatic dynamic reusable data recipes
US9372913B2 (en) * 2013-05-30 2016-06-21 ClearStory Data Inc. Apparatus and method for harmonizing data along inferred hierarchical dimensions
US8819038B1 (en) * 2013-10-06 2014-08-26 Yahoo! Inc. System and method for performing set operations with defined sketch accuracy distribution
US8868537B1 (en) * 2013-11-11 2014-10-21 Palantir Technologies, Inc. Simple web search
US9483162B2 (en) * 2014-02-20 2016-11-01 Palantir Technologies Inc. Relationship visualizations
US9779134B2 (en) 2014-12-26 2017-10-03 Business Objects Software Ltd. System and method of data wrangling
US9785698B2 (en) * 2014-12-31 2017-10-10 Business Objects Software Ltd. Behaviorally consistent cluster-wide data wrangling based on locally processed sampled data

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1461458A (zh) * 2000-10-30 2003-12-10 迈吉尔厄思有限公司 用于分析和成像三维体数据集合的系统和方法
CN1494688A (zh) * 2001-02-24 2004-05-05 �Ҵ���˾ 新颖的大规模并行超级计算机
CN1467687A (zh) * 2002-06-20 2004-01-14 用于提供可控制的纹理采样的系统和方法
CN101002205A (zh) * 2004-04-16 2007-07-18 皇家飞利浦电子股份有限公司 数据集可视化
CN101159869A (zh) * 2006-08-30 2008-04-09 美国西门子医疗解决公司 提供代表性图像信息
US20120330631A1 (en) * 2007-02-27 2012-12-27 Exxonmobil Research And Engineering Company Method and System of Using Inferential Measurements for Abnormal Event Detection in Continuous Industrial Processes
CN101790713A (zh) * 2007-04-17 2010-07-28 番石榴技术公司 用于位置特定的多参数数据集的分析和比较的图形用户界面
CN101216846A (zh) * 2008-01-04 2008-07-09 清华大学 一种仿真数据的可视化与协同共享方法
US20130268520A1 (en) * 2012-04-04 2013-10-10 Microsoft Corporation Incremental Visualization for Structured Data in an Enterprise-level Data Store
US20140214495A1 (en) * 2012-09-30 2014-07-31 iVedix, Inc. Business intelligence systems and methods
CN103024348A (zh) * 2012-11-06 2013-04-03 前卫视讯(北京)科技发展有限公司 视频监控的运维管理系统
US8751499B1 (en) * 2013-01-22 2014-06-10 Splunk Inc. Variable representative sampling under resource constraints
US8799799B1 (en) * 2013-05-07 2014-08-05 Palantir Technologies Inc. Interactive geospatial map

Also Published As

Publication number Publication date
US10417223B2 (en) 2019-09-17
US20180025051A1 (en) 2018-01-25
US20190361886A1 (en) 2019-11-28
CN105740311B (zh) 2020-08-11
EP3037989B1 (en) 2019-08-07
EP3037989A1 (en) 2016-06-29
US10901988B2 (en) 2021-01-26
US20160188663A1 (en) 2016-06-30
US20210157803A1 (en) 2021-05-27
US11269875B2 (en) 2022-03-08
US9779134B2 (en) 2017-10-03

Similar Documents

Publication Publication Date Title
CN105740311A (zh) 数据整理的系统和方法
US10346184B2 (en) Open data protocol services in applications and interfaces across multiple platforms
EP3451154B1 (en) Embedded analytics for applications and interfaces across multiple platforms
Sharma Expanded cloud plumes hiding Big Data ecosystem
US9686086B1 (en) Distributed data framework for data analytics
Wilder Cloud architecture patterns: using microsoft azure
Hurwitz et al. Big data for dummies
AU2019236628B2 (en) Integrated entity view across distributed systems
US10636086B2 (en) XBRL comparative reporting
US20160048548A1 (en) Population of graph nodes
US10877984B1 (en) Systems and methods for filtering and visualizing large scale datasets
US20240346050A1 (en) Interactive Adaptation of Machine Learning Models for Time Series Data
US20160162821A1 (en) Comparative peer analysis for business intelligence
US20240184416A1 (en) Integrated energy data science platform
Bailo et al. The EPOS multi-disciplinary Data Portal for integrated access to solid Earth science datasets
KR101351079B1 (ko) 데이터베이스와 연동되는 프로그램을 제어하는 서비스 제공 방법 및 시스템
Eldridge Best Practices for Designing Efficient Tableau Workbooks
US12079207B2 (en) Systems and methods for intelligent database report generation
Familiar et al. Data visualizations, alerts, and notifications with power BI
US12032574B2 (en) Systems and methods for intelligent database report generation
WO2016011084A1 (en) Methods and apparatus for building and deploying mobile device applications
KIROGE COLLEGE OF ENGINEERING, DESIGN, ART, AND TECHNOLOGY (CEDAT) SCHOOL OF THE BUILT ENVIRONMENT DEPARTMENT OF GEOMATICS AND LAND MANAGEMENT (DGLM)
Berman The current state of geospatial modeling
KR20240117743A (ko) 전사적자원관리 환경에서의 인공지능을 이용한 데이터 활용 모델링 방법 및 시스템
US20150106300A1 (en) Collaboratively enhancing business intelligence models

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant