CN113011400A - 对数据的自动识别和洞察 - Google Patents

对数据的自动识别和洞察 Download PDF

Info

Publication number
CN113011400A
CN113011400A CN202110472011.XA CN202110472011A CN113011400A CN 113011400 A CN113011400 A CN 113011400A CN 202110472011 A CN202110472011 A CN 202110472011A CN 113011400 A CN113011400 A CN 113011400A
Authority
CN
China
Prior art keywords
data
visualization
user
insights
insight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110472011.XA
Other languages
English (en)
Inventor
I·佩耶夫
J·Y·孙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN113011400A publication Critical patent/CN113011400A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • G06N5/047Pattern matching networks; Rete networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Informatics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Generation (AREA)

Abstract

通过对总体数据的分析提供数据自动识别和洞察呈现以推导用户数据的位置。对用户数据集的统计、启发式和类似分析用来确定诸如趋势、相关性、离群值、比较和模式之类的洞察。然后,通过自动优化的可视化(高亮显示所确定的洞察)、在呈现的原始数据上强调、数据格式化建议、以及能够进一步探索的类似方式将所述洞察呈现给用户。

Description

对数据的自动识别和洞察
本申请是申请日为2014年7月31日、申请号为201480043733.1的发明专利申请“对数据的自动识别和洞察”的分案申请。
背景技术
随着计算技术的快速发展,对各种类型和形式的数据的分析、处理和可视化已经变成了日常事务的主要的部分,甚至是很多人个人生活的主要的部分。从诸如销售、市场调查之类的商业数据到学校中学生表现数据,来自各种背景和技能水平的人查看、处理并努力理解日益增长量的数据。
数据分析和查看的典型方案包括用户查看包含各种维度的数据的电子表格,试图通过公式或图表来分析,通常通过手动配置来设置。甚至为了达到一定水平的自动化,用户通常不得不在数据面前对数据有大概理解,选择部分数据(总体数据内的数据集),选择适当的分析工具(例如,趋势公式、图表参数等)。对于少量的数据,这可能不是困难的任务,但是少量的数据也提供对总体情节的较不精确的概括。当期望有更精确的结果或者可用数据量很大时,普通的、基于手动配置的工具在最好的情况下不够好,在最坏的情况下不可用。
此外,数据集的大小通常在用户直接控制下不成问题。除非用户手工制作数据,否则用户可能从另一源获得数据。很多数据源,尤其是更加结构化的源(例如,数据库、来自政府的公共可获得的数据集等),可能足够大而使得在没有正确的工具和适当的技能的情况下很难进行手动分析。
发明内容
提供该发明内容以便以下文在具体实施方式中进一步描述的简化形式来引入精选的概念。该发明内容不旨在排他地标识出权利要求主题的关键特征或主要特征,也不旨在作为确定权利要求主题的范围的辅助。
实施例涉及各种类型数据的自动识别和洞察呈现。在一些示例中,总体数据可以被分析,并且在总体数据内的整个范围内的数据集被确定,以便于推导用户数据的位置。用户的数据集然后可以经过各种分析,诸如统计、启发和类似的分析,以确定诸如趋势、相关性、离群值、比较和模式之类的洞察。洞察可以采用以下形式呈现给用户:自动优化可视化(高亮显示所确定的洞察),在所呈现的原始数据上强调、数据格式化建议、以及类似的具有进一步探索能力的形式。
根据对下面具体实施方式的阅读以及对相关附图的浏览,这些以及其它的特征和优点将变得显而易见。应当理解,前面的概述和下面的具体实施方式二者都是说明性的,且不限制要求保护的方面。
附图说明
图1是示出了根据一些实施例的数据分析和洞察呈现的示例性实现方式的概念图;
图2示出了在电子表格环境中自动识别和洞察呈现的实现方式;
图3示出了基于自动识别和洞察确定将示例性基于图表的数据呈现为表格数据的呈现;
图4示出了根据一些实施例的自动识别和洞察呈现的流程的框图;
图5是其中可以实现根据实施例的系统的简化的网络环境;
图6是其中可以实现实施例的示例性计算操作环境的框图;以及
图7示出了根据实施例的提供自动识别和洞察呈现的过程的逻辑流程图。
具体实施方式
如上面简要概述,可以分析可用的数据来推导用户数据的位置。用户的数据然后可以经过各种分析以确定诸如趋势、相关性、离群值、比较和模式之类的洞察(insight)。洞察可以按如下形式呈现给用户:自动优化可视化、在呈现的原始数据上强调、数据格式化建议、以及类似的形式。
在下面的具体实施方式中,参考了附图,附图构成具体实施方式的一部分,并且在附图中通过示例说明的方式示出了特定实施例或示例。这些方面可以组合,可以使用其它方面,可以进行结构改变,而不偏离本公开的精神或范围。因此,下面的具体实施方式不应从限制的意义上考量,且本发明的范围由随附的权利要求及其等价物来限定。
虽然在结合在计算设备上的操作系统上运行的应用程序执行的程序模块的通常上下文中描述实施例,但是本领域技术人员将认识到各方面可以结合其它程序模块来实现。
一般地,程序模块包括例程、程序、组件、数据结构以及执行特定任务或实现特定抽象数据类型的其它类型的结构。而且,本领域技术人员将意识到,实施例可以利用包括手持式设备、微处理器系统、基于微处理器或可编程消费电子设备、小型计算机、大型计算机、以及类似的计算设备在内的其它计算机系统配置来实践。实施例还可以在通过通信网络链接的远程处理设备来执行任务的分布式计算环境中来实践。在分布式计算环境中,程序模块可以位于本地存储器存储设备或远程存储器存储设备二者中。此外,实施例可以实现在能够进行除了键盘和鼠标输入之外的触摸、姿势、眼睛跟踪、语音命令、陀螺仪、笔、以及类似的交互机制的计算设备中。
实施例可以被实现为计算机实现的过程(方法)、计算系统,或者实现为制品,诸如计算机程序产品或计算机可读介质。计算机程序产品可以是能够由计算机系统来读取的、并且对包括用于使计算机或计算系统执行示例过程的指令的计算机程序进行编码的计算机存储介质。计算机可读存储介质是计算机可读存储器设备。计算机可读存储介质可以例如经由易失性计算机存储器、非易失性存储器、硬盘驱动器或闪速驱动器中的一种或多种来实现。
在整个本说明书中,术语“平台”可以是用于提供对分析数据的自动识别和洞察呈现的软件组件和硬件组件的组合。平台的示例包括但不限于在多个服务器上执行的托管服务、在单个计算设备上执行的应用、以及类似的系统。术语“服务器”一般是指通常在网络环境中执行一个或多个软件程序的计算设备。然而,服务器还可以被实现为在视作网络上的服务器的一个或多个计算设备上执行的虚拟服务器(软件程序)。关于这些技术的更多细节和示例性实施例可见于下面的说明书中。
图1是示出了根据一些实施例的数据分析和洞察呈现的示例性实现方式的概念图。
如图100所示,提供分析和洞察呈现的过程可以开始于基础数据108。基础数据102可以是结构化的、非结构化的以及以各种格式来格式化的。在网络环境中,基础数据108可以通过服务器110表示的托管服务来管理并且经由一个或多个网络106通过在用户的客户端设备104上执行的厚或薄的客户端应用来提供给用户102。可替代地,用户102可以直接从数据存储设备取回基础数据108并且使用托管服务(例如,包括电子表格应用在内的产品套件)来分析和理解。
根据一些实施例,基础数据102可以首先被分析以标识用户数据(即,总体数据内的用户感兴趣的数据集)。在该初始分析中可以考虑数据类型、数据处理的上下文、用户偏好、用户许可、数据的结构以及类似因素。一旦推导出用户数据的位置,则可以将诸如统计、变换、启发式等各种分析应用于用户数据集以确定诸如趋势、模式、相关性、比较和类似的洞察之类的洞察。
然后可以通过可视化来将洞察呈现给用户,诸如图表112被选择且被配置为高亮显示所呈现的洞察(例如,模式114)。洞察还可以通过在原始数据上强调(例如,高亮显示、加阴影或以其它方式强调电子表格上的特定数据集或其子集)或数据格式化建议(也是在电子表格上)来呈现。
根据一些实施例,可以采用机器学习算法或类似技术来检测跟随洞察呈现之后的用户动作(例如,特定列被改变或修改,特定洞察被保留而其它洞察被删除,等等)并且从那些动作中学习。学习机制然后可用来调节未来的识别和洞察呈现操作。
除了托管服务环境之外,实施例还可以通过在本地安装的数据处理应用诸如电子表格应用、数据库应用、呈现应用、做笔记应用或甚至是文字处理应用来实现。此外,可以采用诸如键盘/鼠标、触摸、姿势、笔、眼睛跟踪、语音命令、陀螺仪和类似输入机制等各种交互机制来与系统交互以及选定各种参数。
图2示出了在电子表格环境中自动识别和洞察呈现的实现方式。
示意图200显示出数据处理应用的用户界面,诸如以表格格式呈现数据的电子表格应用。虽然所呈现的数据206为了该示例说明的目的并不重要,但是应当注意数据包括诸如列和行的维度。自动识别和洞察呈现可以在将数据装载到应用或者检测到控制元件208的激活时自动开始。
在一个示例性实施例中,以二维表格呈现给用户的表格数据可以包括不同的维度。例如,列可以代表各种产品,而行可以代表不同时间段(例如,按月)的销售图。此外,电子表格可以包括各种用户可能感兴趣的完整的和/或不完整的数据的部分。电子表格还可以在多个工作表中包含数据,将第三维度添加到方案中。
用于检测用户数据的位置的初始分析可以显现关于数据的总体统计,诸如多少行/列,多少不完整的行,等等。在检测到数据范围(换言之,用户数据集)时,诸如语义缩放的各种能力可以被启用。接着,可以在总体数据和任何用户特定信息的上下文内分析用户数据集以确定对数据的洞察。该级别的分析可以包括统计、变换、启发式和类似分析。在一些实施例中,所得到的洞察可以以可视化(例如,图表)的形式呈现给用户。高亮显示所发现的洞察的建议的图表可以被呈现为每个分析的工作表下的页。在其它实施例中,多个建议(图表)可以以微型化的形式(例如,工作表202、204)来呈现,并且可以在选择一个微型化建议时显示出可视化的细节。
图3示出了基于对表格数据的自动识别和洞察确定的示例性的基于图表的数据可视化的呈现。
示意图300显示出一个示例性可视化,其包括在电子表格310本身的三维背景上显示的总体数据的一个列中检测到的趋势的三维图表304。电子表格310用作背景可以向用户提供可视连接,将可视化的洞察与其基础数据在电子表格上的位置关联。在示例方案中,可视化的数据集可以是根据邮政编码的销售图,其中图表304以渐增趋势呈现该销售图(使得趋势可见并且使用户能够图形地比较不同邮政编码之间的差别)。进一步的增强可以包括诸如文本和/或图形强调特定数据点(具有最低306销售图值和最高308销售图值的邮政编码)之类的高亮显示。
如上所述,对于单个数据集可以生成多个可视化,例如,一个高亮显示检测到的趋势,另一个高亮显示离群值、又一个高亮显示比较。此外,可以在同一电子表格内对于与用户相关联的多个数据集生成不同的可视化。这些可视化可以诸如图标302的微型化形式呈现为图标以供选择。虽然在示例用户界面上显示出一个图标,但是很多这样的图标可以以扩展或折叠的形式呈现以供用户选择。
在一些实施例中,可以使用户能够通过选择可用的选项来改变可视化(或洞察的其它呈现)参数、切换到基础数据、基于呈现的洞察来尝试可替代方案等等来进一步探索数据和洞察。选择可以在用户界面上或用户界面外以各种方式(例如,下拉菜单、径向菜单、弹出式菜单、基于触摸/姿势的直接动作等)来呈现。选择还能够取决于基础数据、可视化类型、用户偏好和类似的因素来动态地变化。
如图300所示,图表304可以放置(自动地或者基于用户选择)在背景中的包含数据基础部分的部分上并且与提供进一步可视相关的列对准。诸如颜色、条尺寸、边界等其它参数可以被预先定义,可以是用户可选择的,和/或能够基于场景的组成而自动配置。
根据一些实施例可以使用多个可视化。例如,两个或更多个基于三维条形图的可视化可以与它们相应的基础数据对准地呈现在表格数据背景(电子表格)上,允许用户以可视的方式比较数据的趋势和变化。可视化不限于条形图或任何图表。还可以采用其它可视化,诸如自由形式表示。除了将基础数据用作背景之外,还可以自动地选择或者通过用户选择将诸如与基础数据(例如,代表自行车销售数据的自行车图片、建造中的建筑物建造计划、与基础数据相关联的地理区域的地图等)相关联的图像或图形的其它背景选为背景。
图4示出了根据一些实施例的用于自动识别和洞察呈现的流程的框图。
如图400所示,诸如电子表格的基础数据402可以经过统计、变换、启发式和类似的分析(404)以确定数据内的诸如趋势、相关性、离群值、比较、模式等洞察(406)。然后,洞察可以呈现(408)为可视化,在原始数据上的强调、数据格式化建议以及类似的形式。因此,数据处理应用或服务可以通过为用户自动可视化来探索并且学习数据,而无需用户选择数据的部分,定义分析参数,标识可视化配置,等等。
根据实施例的系统可以自动地推导用户数据的位置,而无需用户在接收可视化之前执行任何预先选择或高亮显示。可以采用各种启发式方法来标识数据集的边界。通过使用一组统计、变换和启发式方法扫描用户数据来揭露趋势、相关性、离群值和比较,可以允许用户自动地发现关于其数据的洞察。例如,用户可以被告知冰淇淋销售与温度相关(随着温度升高而增加),或者在七月份的冰淇淋销售与其它月份相比是离群值。每个洞察可由可视化支撑,以使得向用户提供进一步探索的证据和能力。
自动发现的洞察可以包括但不限于关于数据的总体统计、维度(例如,行/列)数、不完整行数、无用数据百分比、数据内的特定数据类型/值的数量、特定实体内的数据的浓度或百分比、诸如最低、最高、最快增长值的趋势以及类似洞察。
图1至图4的示例的方案和概要以特定组件、分析类型、洞察、可视化和配置来显示。实施例不限于根据这些示例的系统。提供自动识别和洞察呈现可以利用本文描述的原理在应用和用户接口中采用更少或额外组件的配置来实现。
图5是示例的网络环境,其中可以实现实施例。用于对数据的自动识别和洞察呈现的系统可以经由在诸如托管服务的一个或多个服务器514上执行的软件来实现。平台可以通过网络510与诸如智能电话513、膝上型计算机512、或桌面式计算机511的个体计算设备(“客户端设备”)上的客户端应用进行通信。
在客户端设备511-513中的任何设备上执行的客户端应用可以便于经由由服务器514所执行的应用来进行通信,或者便于经由在单个服务器516上执行的应用来进行通信,为用户提供数据可视化、分析、报告等等。作为电子表格应用或服务的一部分执行的洞察引擎可以执行本文所描述的动作。与洞察和可视化相关联的更新或额外的数据可以直接存储在数据存储设备519中或者通过与托管服务相关联的数据库服务器518而存储在数据存储设备519中。
网络510可以包括服务器、客户端、因特网服务提供商、和通信介质的任意拓扑。根据实施例的系统可以具有静态或动态拓扑。网络510可以包括安全网络,诸如企业网,不安全网络,诸如无线开放式网络,或者因特网。网络510还可以在诸如公共开关电话网络(PSTN)或蜂窝网络之类的其它网络上协调通信。此外,网络510可以包括短程无线网,诸如蓝牙或类似网络。网络510提供本文所描述的节点之间的通信。通过示例的方式而不是限制的方式,网络510可以包括诸如声波、RF、红外和其它无线介质的无线介质。
可以采用计算设备、应用、数据源和数据分布系统的很多其它配置来提供对数据的自动识别和洞察呈现。此外,在图5中讨论的网络环境仅为了示例性目的。实施例不限于示例性应用、模块或过程。
图6及其相关的讨论旨在提供可以在其中实现实施例的适当的计算环境的简要的、总体描述。参考图6,示出了根据实施例的用于应用的示例的计算操作环境的框图,诸如计算设备600。在基本配置中,计算设备600可以是根据实施例执行诸如电子表格应用之类的数据处理应用的任何计算设备,并且包括至少一个处理单元602和系统存储器604。计算设备600还可以包括在执行的程序中协作的多个处理单元。取决于计算设备的确切配置和类型,系统存储器604可以是易失性的(诸如RAM)、非易失性的(诸如ROM、闪速存储器等)或者两者的某种组合。系统存储器604典型地包括适合控制平台操作的操作系统605,诸如华盛顿的雷德蒙的微软公司(Microsoft Corporation)的
Figure BDA0003045821620000081
操作系统。系统存储器604还可以包括一个或多个软件应用,诸如程序模块606、数据处理应用622、洞察引擎624和可视化模块626。
数据处理应用622可以在可用数据上执行各种任务,诸如分析、呈现、使能修改、更新等。数据处理应用622可以与洞察引擎624和可视化模块626相结合地操作以分析总体数据并且提供如上所述的自动识别和洞察呈现。该基本配置通过图6中的虚线608内的那些组件来图示出。
计算设备600可以具有额外的特征或功能。例如,计算设备600还可以包括额外的数据存储设备(可移除的和/或非可移除的),例如,磁盘、光盘或磁带。这些额外的存储设备在图6中由可移除存储设备609和非可移除存储设备610来图示出。计算机可读存储介质可以包括以任何方法或技术实现的、用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的易失性和非易失性的、可移除和非可移除的介质。系统存储器604、可移除存储设备609和非可移除存储设备610都是计算机可读存储介质的示例。计算机可读存储介质包括但不限于RAM、ROM、EEPROM、闪速存储器或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光学存储设备、磁带、磁盘存储或其它磁存储设备、或者能够用于存储所期望的信息且能够由计算设备600访问的任何其它介质。任何这样的计算机可读存储介质可以是计算设备600的部分。计算设备600还可以具有输入设备612,诸如键盘、鼠标、笔、语音输入设备、触摸输入设备、用于检测姿势的光学捕捉设备以及类似的输入设备。还可以包括输出设备614,诸如显示器、扬声器、打印机以及其它类型的输出设备。这些设备是本领域公知的,无需在此赘述。
计算设备600还可以包含通信连接616,该通信连接允许设备诸如经由在分布式计算环境中的有线或无线网、卫星链路、蜂窝链路、短程网络和类似机制与其它设备618进行通信。其它设备618可以包括执行通信应用、网络服务器和类似设备的计算机设备。通信连接616是通信介质的一个示例。通信介质可以在其中包括计算机可读指令、数据结构、程序模块或其它数据。通过示例而不是限制的方式,通信介质包括诸如有线网络或直接接线连接的有线介质,以及诸如声波、RF、红外和其它无线介质的无线介质。
示例性实施例还包括方法。这些方法可以通过任意多种方式来实现,包括在该文献中描述的结构。一种这样的方式是通过在该文献中描述的类型的设备的机器操作。
另一种可选的方式是与执行一些操作的一个或多个人类操作员相结合地执行方法的各个操作中的一个或多个。这些人类操作员无需彼此配合,而是每个人类操作员可以仅有执行程序的一部分的机器。
图7示出了根据实施例的用于提供自动识别和洞察呈现的过程的逻辑流程图。过程700可以与数据处理服务或诸如电子表格应用的应用内的洞察模块相结合地实现。
过程700开始于操作710,其中可以在数据处理应用处接收基础数据,例如,以电子表格应用处的电子表格的形式。虽然此处为了示例的目的使用了电子表格应用和数据,但是实施例不限于在电子表格环境中的实现方式,并且可以应用于任何数据处理环境中的任何数据形式,诸如文字处理应用中的表格、数据库应用,等等。
在操作720中,存在于电子表格内的全部的数据集可以被标识出以便自动推导用户数据(数据集)的位置。在操作730中,可以采用诸如统计、变换、启发式和类似的分析之类的各种分析技术来分析所标识出的用户数据集。
在操作740中,可以基于分析结果来确定对数据的洞察。洞察可以包括模式、趋势、相关性、离群值、比较和类似的确定。在可选的操作750处,洞察然后可以呈现给用户,采用可视化、在原始数据集上的强调、数据格式化建议和类似方式中的一种或多种。诸如可视化的呈现可以自动优化以高亮显示所发现的洞察。例如,可以自动选择图表类型和图表参数以对于特定数据集以可视化方式高亮显示所检测到的趋势。
在过程700中包含的操作是为了说明性目的。对数据的自动识别和洞察呈现可以通过具有较少或额外步骤的类似过程来实现,而且可以利用本文所描述的原理按不同的操作顺序来实现。
上面的说明书、示例和数据提供了对实施例的构成物的制造和使用的完整描述。虽然以特定于结构特征和/或方法行为的语言描述了主题,但是应当理解在随附权利要求中限定的主题不必限制于上述的特定特征或行为。相反,上述的特定特征或行为被公开为实现权利要求和实施例的示例形式。

Claims (19)

1.一种被配置为提供对数据的自动识别和洞察导出的服务器,所述服务器包括:
存储器,其被配置为存储指令;
通信模块,其被配置为与一个或多个计算设备交换数据;以及
处理器,其耦合到所述存储器和所述通信模块,所述处理器适于结合存储在所述存储器中的指令来执行数据处理应用,其中,所述数据处理应用被配置为:
接收由在所述服务器上执行的托管服务所管理的基础数据;
基于以下中的一项或多项来推导所述基础数据内的用户数据集:所述基础数据的类型、数据处理的上下文、所述基础数据的结构、用户的使用历史、以及所述用户的证书;
通过在所述用户数据集上执行统计、变换、启发式分析中的一项或多项来分析所述用户数据集;
基于分析结果来确定在所述用户数据集上的一个或多个洞察,所述一个或多个洞察包括以下中的一项或多项:针对每个数据集或数据集的组合的趋势、相关性、离群值、模式、以及比较;以及
向所述一个或多个计算设备提供要显示的以下内容:对来自所述一个或多个洞察的、与每个数据集相关联的洞察进行高亮显示的一个或多个用户数据集的可视化,对呈现的原始基础数据的强调,以及数据格式化建议。
2.根据权利要求1所述的服务器,其中,所述数据处理应用还被配置为:向所述一个或多个设备提供要显示的控制元件以用于基于所述基础数据而发起对所述洞察的自动识别和呈现。
3.根据权利要求1所述的服务器,其中,所述数据处理应用包括可视化引擎,所述可视化引擎被配置为生成所述可视化,并且还被配置为基于与由所述可视化所表示的另一方面不同的所述基础数据的一部分的方面而有条件地格式化所述可视化。
4.根据权利要求1所述的服务器,其中,所述数据处理应用还被配置为:通过选择用于调节可视化配置的可用选项、切换到所述基础数据、以及尝试替代方案,提供给所述用户以进一步探索所述基础数据和所呈现的洞察。
5.根据权利要求4所述的服务器,其中,所述可视化配置包括以下中的一项或多项:颜色方案、边界样式方案、相对大小、布置、透视以及所述数据处理应用。
6.根据权利要求4所述的服务器,其中,所述可视化配置还被配置为:通过以下中的一项或多项来向所述一个或多个设备提供要显示的所述可用选项:下拉菜单、径向菜单、弹出式菜单、以及基于触摸或姿势输入的在所述可视化上的直接动作。
7.根据权利要求1所述的服务器,其中,所述数据处理应用是电子表格应用、数据库应用、演示应用、笔记应用和文字处理应用之一。
8.一种在计算设备上执行的用于对数据进行自动识别和洞察导出的方法,所述方法包括:
接收基础数据,其中,所述基础数据是表格格式的;
通过标识用户感兴趣的所述基础数据内的行和列的组合来推断用户数据集;
分析所述用户数据集;
基于分析结果来确定在所述用户数据集上的一个或多个洞察,所述一个或多个洞察包括以下中的一项或多项:针对每个数据集或数据集的组合的趋势、相关性、离群值、模式、以及比较;以及
提供要显示的以下内容:对来自所述一个或多个洞察的、与每个数据集相关联的洞察进行高亮显示的一个或多个用户数据集的可视化,对呈现的原始基础数据的强调,以及数据格式化建议,其中,洞察包括以下中的一项:趋势、相关性、离群值、比较、以及模式。
9.根据权利要求8所述的方法,其中,所述可视化是高亮显示所提供的洞察的图表,对所呈现的原始基础数据的强调是对所述原始基础数据的一部分的加阴影和高亮显示之一,并且所述数据格式化建议是所述基础数据的一个或多个建议的表示形式。
10.根据权利要求9所述的方法,其中,所述可视化是条形图、饼图、散点图、和折线图之一。
11.根据权利要求8所述的方法,还包括通过以下步骤之一创建背景:将所述基础数据的表格呈现转换成三维背景图像、选择与所述基础数据相关联的图像、以及选择与所述基础数据相关联的图形。
12.根据权利要求11所述的方法,还包括:显示所述背景和所述可视化的微型化图形表示,以便选择与多个用户数据集相关联的洞察的可视化并且用文本信息补充所述背景的所述微型化图形表示。
13.根据权利要求11所述的方法,还包括:将所述可视化置于所述背景上,以使得所述基础数据与所可视化的洞察之间的相关性被呈现。
14.一种被配置为提供对数据的自动识别和洞察导出的系统,所述系统包括:
第一服务器,其被配置为管理与托管服务相关联的数据;以及
第二服务器,其被配置为提供所述托管服务,所述托管服务包括以下中的一项或多项:电子表格应用、数据库应用、演示应用、笔记应用和文字处理应用,其中,所述第二服务器被配置为执行可视化引擎,所述可视化引擎被配置为:
从所述第二服务器接收基础数据;
基于以下中的一项或多项来推导所述基础数据内的用户数据集:所述基础数据的类型、数据处理的上下文、所述基础数据的结构、用户的使用历史、以及所述用户的证书;
通过在所述用户数据集上执行统计、变换、启发式分析中的一项或多项来分析所述用户数据集;
基于分析结果来确定在所述用户数据集上的一个或多个洞察,所述一个或多个洞察包括以下中的一项或多项:针对每个数据集或数据集的组合的趋势、相关性、离群值、模式、以及比较;
向所述一个或多个计算设备提供要显示的以下内容:对来自所述一个或多个洞察的、与每个数据集相关联的洞察进行高亮显示的一个或多个用户数据集的可视化,对呈现的原始基础数据的强调,以及数据格式化建议。
通过以下方式在相关背景上提供洞察以作为一个或多个可视化:
通过以下方式中的一种方式来创建背景:将所述基础数据的表格呈现转换成三维背景图像、选择与所述基础数据相关联的图像、以及选择与所述基础数据相关联的图形;
将所述可视化置于所述背景上,以使得所述基础数据与所可视化的洞察之间的相关性被呈现。
15.根据权利要求14所述的系统,其中,可视化引擎还被配置为:生成对于单个数据集的多个可视化,每个可视化高亮显示不同的洞察;并且在电子表格内生成对于与所述用户相关联的多个数据集的不同的可视化。
16.根据权利要求14所述的系统,其中,可视化引擎还被配置为:在强调所选择的数据点的可视化上提供一个或多个文本和图形高亮显示。
17.根据权利要求14所述的系统,其中,所述可视化与电子表格应用程序相关联。
18.根据权利要求17所述的系统,其中,所述可视化引擎还被配置为:将高亮显示所发现的洞察的建议的图表呈现为所述电子表格中的每个分析的工作表下的页,所述电子表格包括由基础数据构成的多个工作表。
19.根据权利要求14所述的系统,其中,所述可视化引擎还被配置为:检测对所述一个或多个洞察的呈现之后的用户动作;以及采用机器学习算法以基于所检测到的用户动作来调节对洞察的未来确定和呈现。
CN202110472011.XA 2013-08-02 2014-07-31 对数据的自动识别和洞察 Pending CN113011400A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/958,176 US9418336B2 (en) 2013-08-02 2013-08-02 Automatic recognition and insights of data
US13/958,176 2013-08-02
CN201480043733.1A CN105474231A (zh) 2013-08-02 2014-07-31 对数据的自动识别和洞察

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201480043733.1A Division CN105474231A (zh) 2013-08-02 2014-07-31 对数据的自动识别和洞察

Publications (1)

Publication Number Publication Date
CN113011400A true CN113011400A (zh) 2021-06-22

Family

ID=51390186

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202110472011.XA Pending CN113011400A (zh) 2013-08-02 2014-07-31 对数据的自动识别和洞察
CN201480043733.1A Pending CN105474231A (zh) 2013-08-02 2014-07-31 对数据的自动识别和洞察

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201480043733.1A Pending CN105474231A (zh) 2013-08-02 2014-07-31 对数据的自动识别和洞察

Country Status (4)

Country Link
US (2) US9418336B2 (zh)
EP (1) EP3028230A4 (zh)
CN (2) CN113011400A (zh)
WO (1) WO2015017596A2 (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150286929A1 (en) * 2014-04-04 2015-10-08 State Farm Mutual Automobile Insurance Company Aggregation and correlation of data for life management purposes
US9830370B2 (en) * 2014-09-18 2017-11-28 Business Objects Software Ltd. Visualization suggestion application programming interface
US9792281B2 (en) * 2015-06-15 2017-10-17 Microsoft Technology Licensing, Llc Contextual language generation by leveraging language understanding
US11816769B2 (en) 2015-06-29 2023-11-14 Microsoft Technology Licensing, Llc Multi-dimensional data insight interaction
US10936637B2 (en) * 2016-04-14 2021-03-02 Hewlett Packard Enterprise Development Lp Associating insights with data
US10796285B2 (en) 2016-04-14 2020-10-06 Microsoft Technology Licensing, Llc Rescheduling events to defragment a calendar data structure
US10102241B2 (en) 2016-05-20 2018-10-16 Microsoft Technology Licensing, Llc Detecting errors in spreadsheets
US10853583B1 (en) * 2016-08-31 2020-12-01 Narrative Science Inc. Applied artificial intelligence technology for selective control over narrative generation from visualizations of data
US10984333B2 (en) 2016-11-08 2021-04-20 Microsoft Technology Licensing, Llc Application usage signal inference and repository
US10620790B2 (en) 2016-11-08 2020-04-14 Microsoft Technology Licensing, Llc Insight objects as portable user application objects
US11032410B2 (en) 2016-11-08 2021-06-08 Microsoft Technology Licensing, Llc Mobile data insight platforms for data analysis
WO2018107128A1 (en) * 2016-12-09 2018-06-14 U2 Science Labs, Inc. Systems and methods for automating data science machine learning analytical workflows
US10848501B2 (en) * 2016-12-30 2020-11-24 Microsoft Technology Licensing, Llc Real time pivoting on data to model governance properties
US10713442B1 (en) 2017-02-17 2020-07-14 Narrative Science Inc. Applied artificial intelligence technology for interactive story editing to support natural language generation (NLG)
US10628978B2 (en) 2017-02-23 2020-04-21 Wipro Limited Method and system for processing input data for display in an optimal visualization format
US11023826B2 (en) 2017-09-29 2021-06-01 Oracle International Corporation System and method for data visualization using machine learning and automatic insight of facts associated with a set of data
US11042713B1 (en) 2018-06-28 2021-06-22 Narrative Scienc Inc. Applied artificial intelligence technology for using natural language processing to train a natural language generation system
CN109325600A (zh) * 2018-09-26 2019-02-12 广东工业大学 一种适用于多个隐混杂因子数据的发现方法及系统
US11120041B2 (en) 2019-06-21 2021-09-14 International Business Machines Corporation Maintaining synchronization of collected data and insights
CN110825749B (zh) * 2019-11-05 2022-12-23 泰康保险集团股份有限公司 行为轨迹分析展示方法、装置、电子设备、存储介质
WO2021154741A1 (en) * 2020-01-28 2021-08-05 Rialtic, Inc. Insight recommendation cross-reference to related applications
US11394799B2 (en) 2020-05-07 2022-07-19 Freeman Augustus Jackson Methods, systems, apparatuses, and devices for facilitating for generation of an interactive story based on non-interactive data
US11775756B2 (en) * 2020-11-10 2023-10-03 Adobe Inc. Automated caption generation from a dataset

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1535429A (zh) * 1999-05-21 2004-10-06 ��Ŧī������³��˹��˾ 可重用数据标记语言
CN1758252A (zh) * 2004-10-07 2006-04-12 微软公司 自动视图选择
CN102254017A (zh) * 2010-07-21 2011-11-23 微软公司 数据可视化的智能默认
CN102385615A (zh) * 2010-09-30 2012-03-21 微软公司 收集和呈现信息

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5528735A (en) 1993-03-23 1996-06-18 Silicon Graphics Inc. Method and apparatus for displaying data within a three-dimensional information landscape
US5848425A (en) 1996-07-01 1998-12-08 Electronic Data Systems Corporation System and method for displaying alphanumeric data in a three dimensional grid
US6188403B1 (en) 1997-11-21 2001-02-13 Portola Dimensional Systems, Inc. User-friendly graphics generator using direct manipulation
FR2806183B1 (fr) 1999-12-01 2006-09-01 Cartesis S A Dispositif et procede pour la consolidation instantanee, l'enrichissement et le "reporting" ou remontee d'information dans une base de donnees multidimensionnelle
US6995768B2 (en) 2000-05-10 2006-02-07 Cognos Incorporated Interactive business data visualization system
US7363584B1 (en) 2001-04-11 2008-04-22 Oracle International Corporation (Oic) Method and article for interactive data exploration
US20040205524A1 (en) 2001-08-15 2004-10-14 F1F9 Spreadsheet data processing system
WO2003032125A2 (en) 2001-10-11 2003-04-17 Visualsciences, Llc System, method, and computer program product for processing and visualization of information
US6747650B2 (en) 2002-04-22 2004-06-08 Battelle Memorial Institute Animation techniques to visualize data
US7827499B2 (en) 2004-10-29 2010-11-02 Hewlett-Packard Development Company, L.P. Hierarchical dataset dashboard view
US8402361B2 (en) 2004-11-09 2013-03-19 Oracle International Corporation Methods and systems for implementing a dynamic hierarchical data viewer
US8060817B2 (en) 2004-11-09 2011-11-15 Oracle International Corporation Data viewer
EP1736903A2 (en) 2005-06-20 2006-12-27 Oculus Info Inc. System and method for visualizing contextual-numerical data of source document as corresponding transformed documents
US7606835B2 (en) 2006-02-14 2009-10-20 Oracle International Corporation Automatic rules driven data visualization selection
US7999809B2 (en) 2006-04-19 2011-08-16 Tableau Software, Inc. Computer systems and methods for automatic generation of models for a dataset
US8869037B2 (en) 2006-06-22 2014-10-21 Linkedin Corporation Event visualization
US7831928B1 (en) 2006-06-22 2010-11-09 Digg, Inc. Content visualization
US9058307B2 (en) 2007-01-26 2015-06-16 Microsoft Technology Licensing, Llc Presentation generation using scorecard elements
US8301993B2 (en) 2007-02-08 2012-10-30 International Business Machines Corporation Mapping raw spreadsheet data into graphs on arbitrary subsets of the data
US7737979B2 (en) 2007-02-12 2010-06-15 Microsoft Corporation Animated transitions for data visualization
US8745086B2 (en) 2008-12-05 2014-06-03 New BIS Safe Luxco S.á.r.l. Methods, apparatus and systems for data visualization and related applications
US20100194778A1 (en) 2009-01-30 2010-08-05 Microsoft Corporation Projecting data dimensions on a visualization data set
US20110066933A1 (en) 2009-09-02 2011-03-17 Ludwig Lester F Value-driven visualization primitives for spreadsheets, tabular data, and advanced spreadsheet visualization
US8423445B2 (en) 2010-07-27 2013-04-16 Edward Rotenberg Method and system for three-dimensional presentation of financial data
US9024952B2 (en) 2010-12-17 2015-05-05 Microsoft Technology Licensing, Inc. Discovering and configuring representations of data via an insight taxonomy
US9299173B2 (en) * 2011-06-07 2016-03-29 International Business Machines Corporation Automatic selection of different visualizations for the organization of multivariate data
EP2568427A1 (en) 2011-09-12 2013-03-13 Gface GmbH A computer-implemented method for displaying an individual timeline of a user of a social network, computer system and computer readable medium thereof

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1535429A (zh) * 1999-05-21 2004-10-06 ��Ŧī������³��˹��˾ 可重用数据标记语言
CN1758252A (zh) * 2004-10-07 2006-04-12 微软公司 自动视图选择
CN102254017A (zh) * 2010-07-21 2011-11-23 微软公司 数据可视化的智能默认
CN102385615A (zh) * 2010-09-30 2012-03-21 微软公司 收集和呈现信息

Also Published As

Publication number Publication date
CN105474231A (zh) 2016-04-06
US9418336B2 (en) 2016-08-16
US20160321552A1 (en) 2016-11-03
US20150039537A1 (en) 2015-02-05
EP3028230A2 (en) 2016-06-08
WO2015017596A2 (en) 2015-02-05
EP3028230A4 (en) 2017-03-29
US9589233B2 (en) 2017-03-07
WO2015017596A3 (en) 2015-05-07

Similar Documents

Publication Publication Date Title
US9589233B2 (en) Automatic recognition and insights of data
US10067635B2 (en) Three dimensional conditional formatting
US20170139890A1 (en) Smart card presentation of tabular data from collaboration database
CN106255965B (zh) 用于电子表格的自动见解的方法和系统
US9696967B2 (en) Generation of an application from data
CN109923568B (zh) 用于数据分析的移动数据洞察平台
KR101773574B1 (ko) 데이터 테이블의 차트 시각화 방법
US20170052984A1 (en) Methods and systems for optimizing data in large data sets using relevant metadata
JP2017010580A (ja) 電子文書の検索方法及び電子文書検索のグラフィカル表示方法
US11966873B2 (en) Data distillery for signal detection
KR102369604B1 (ko) 고정 포맷 문서를 리플로우 포맷으로 프리젠트하는 기법
US20130038612A1 (en) Automatic generation of trend charts
US20140331179A1 (en) Automated Presentation of Visualized Data
US20150178259A1 (en) Annotation hint display
US9971469B2 (en) Method and system for presenting business intelligence information through infolets
US9377864B2 (en) Transforming visualized data through visual analytics based on interactivity
KR101985014B1 (ko) 탐색적 데이터 시각화 시스템 및 그 방법
KR101798139B1 (ko) 웹 기반 데이터 시각화 시스템에서의 데이터 변수타입에 따른 필터 시스템 및 방법
KR20190011186A (ko) 데이터 시각화를 위한 웹 기반 차트 라이브러리 시스템
US11714962B2 (en) Systems and methods for automated review and editing of presentations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination