CN106030570A - 显现数据集间的关系 - Google Patents

显现数据集间的关系 Download PDF

Info

Publication number
CN106030570A
CN106030570A CN201480076137.3A CN201480076137A CN106030570A CN 106030570 A CN106030570 A CN 106030570A CN 201480076137 A CN201480076137 A CN 201480076137A CN 106030570 A CN106030570 A CN 106030570A
Authority
CN
China
Prior art keywords
word
data set
document
data
visualization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480076137.3A
Other languages
English (en)
Other versions
CN106030570B (zh
Inventor
许建志
廖勤樱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN106030570A publication Critical patent/CN106030570A/zh
Application granted granted Critical
Publication of CN106030570B publication Critical patent/CN106030570B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本文描述的技术涉及显现数据集间的关系。数据集集合中的数据集被指派描述所述数据集的内容的词语。词语在包括非结构化文本的源文档中的同时出现被标识,且基于词语在源文档中的同时出现,数据集间的关系被标识。数据集间的关系被根据用户陈述的可视化指令可视化。

Description

显现数据集间的关系
背景
为了组织数据并使数据适于处理,数据常被存储在数据集中。通常,数据集的设计者在定义该数据集的模式(schema)时还将向该数据集指派分类(classification)。相应地,设计者通过向数据集指派同一分类来标识相关的数据集。例如,警察局可设计并维护“事故”数据集和“票据”数据集,其中“事故”数据集包括关于城市中的汽车事故的数据,而“票据”数据集包括关于向城市中的旅行者给出的交通罚单的数据。数据集的设计者可向这两个数据集均指派分类“交通”;因此,审阅者可搜索被指派了分类“交通”的数据集,并查明上面引用的这两个数据集是相关的。然而,这些数据集之间的关系是静态的。而且,目前缺少用于向用户显现数据集间的关系的适当机制。
概述
以下是在本文更详细描述的主题的简要概述。本概述不旨在成为关于权利要求的范围的限制。
本文描述了一种计算系统。该计算系统被配置成标识数据集间的关系。该计算系统包括处理器和计算机可读存储,该计算机可读存储包括由该处理器执行的组件。所述组件包括过滤器组件,该过滤器组件接收标识第一词语或第二词语中的至少一者的查询,该第一词语被指定为描述第一数据集的内容,该第二词语被指定为描述第二数据集的内容。该过滤器组件进一步响应于接收到该查询而访问数据立方体并从中提取计数值,该计数值指示第一词语在来自多个源文档中的文档子集中的聚集的出现次数,该第二词语在该数据立方体中被标识为该文档子集中的每个文档的主要词语。所述组件还包括可视化器组件,该可视化器组件基于由该过滤器组件从该数据立方体提取的计数值来形成可视化,该可视化指示该第一数据集与该第二数据集有关。
附图简述
图1是被配置成构造数据立方体的示例性系统的功能框图,该数据立方体适于在构造表示数据集间的关系的可视化时使用。
图2是示出该数据立方体的示例性构造的图示。
图3示出可通过在图1中示出的系统构造的示例性数据立方体。
图4是被配置成向用户显现数据集间的关系的示例性系统的功能框图。
图5示出示例性可视化。
图6示出了描绘数据集间的关系的示例性可视化。
图7示出了进一步描绘数据集间的关系的示例性可视化。
图8示出了可结合构造表示数据集间的关系的可视化使用的示例性图形工具。
图9示出了描绘数据集间的关系的示例性可视化。
图10示出了描绘数据集间的关系的另一示例性可视化。
图11是示出了用于构造数据立方体的示例性方法的流程图,其中在该数据立方体上进行查询以标识数据集间的关系。
图12是示出用于构造表示数据集间的关系的可视化的示例性方法的流程图。
图13是示出用于控制显示器以视觉地描绘数据集间的关系的示例性方法的流程图。
图14是示出用于响应于接收用户输入而动态地更新可视化的示例性方法的流程图。
图15示出了示例性计算系统。
详细描述
现在参考附图来描述与可视化数据集间的关系有关的各种技术,其中在附图中贯穿始终使用相同的附图标记来引述相同的要素。在以下描述中,为解释起见,阐明了众多具体细节以提供对一个或多个方面的全面理解。然而,显然这(些)方面可以在没有这些具体细节的情况下实施。在其他实例中,以框图形式示出公知的结构和设备以便于描述一个或多个方面。另外,要理解,被描述为由特定系统组件执行的功能性可由多个组件执行。类似地,例如,一组件可被配置成执行被描述为由多个组件实现的功能。
此外,术语“或”意指包括性“或”而非排斥性“或”。即,除非另有指定或从上下文显而易见,否则短语“X采用A或B”意指任何自然的包括性排列。即,短语“X采用A或B”藉由以下实例中任何实例得到满足:X采用A;X采用B;或X采用A和B两者。另外,本申请和所附权利要求书中所使用的冠词“一”和“某”一般应当被解释成表示“一个或多个”,除非另外声明或者可从上下文中清楚看出是指单数形式。
此外,如本文所使用的,术语“组件”和“系统”旨在包含用使得在被处理器执行时执行特定功能性的计算机可执行指令配置的计算机可读数据存储。计算机可执行指令可包括例程、功能等等。还要理解组件或系统可以位于单个设备上或跨若干设备分布。此外,如本文使用的,术语“示例性”旨在意味用作某些事情的说明或示例,而并非旨在指示优选。
本文描述了与显现数据集间的关系有关的各种技术。本文描述的技术使得用户能够标识两个或更多个不同数据集彼此相关,即使这些数据集在构造时没有被指示为相关。而且,本文描述的技术使得用户能够定义要被可视化的数据集间的关系。从而,本文描述的技术向用户提供了关于此前不可获得的数据集间的关系的信息。
现在参考图1,示出了被配置成构造和/或更新具有超过两个维度的数据结构(例如,数据立方体)的示例性系统100,其中该数据立方体在被构造时包括指示实体(诸如数据集)之间的关系的数据。系统100包括计算设备102,该计算设备可以是任何适当的计算设备,包括但不限于:服务器计算设备、客户端计算设备(例如,台式计算设备、膝上型计算设备、平板计算设备、移动电话、可穿戴计算设备等)。计算设备102可通过网络109访问多个数据源104-108。在非限制性示例中,网络109可以是因特网。多个数据源104-108包括相应的多个源文档110-114。从而,第一数据源104包括第一源文档110,第二数据源106包括第二源文档112,而第n数据源108包括第n源文档114。
在一示例中,数据源104-108中的至少一者可以是社交联网应用或站点。例如,第一数据源104可以是社交联网应用或站点,而源文档110可以是由该社交联网应用或站点的用户陈述的可公开访问的帖子、评论、消息等。在另一示例中,数据源104-108中的至少一者可以是新闻应用或站点。因此,例如,第二数据源106可以是新闻应用或站点,而第二源文档112可以是或包括由该新闻应用或站点发布的新闻项或故事、关于该新闻故事陈述的用户评论等。在又一示例中,数据源104-108中的至少一者可以是博客应用或站点。从而,第n数据源108可以是博客应用或站点,而第n源文档114可以是可公开访问的博客帖子、对这些帖子的评论等。根据上文,可以查明,源文档110-114可包括包含非结构化文本的任何适当的文档、帖子、新闻故事等。
计算设备102被编程为从源文档110-114提取数据,其中所提取的数据指示源文档110-114的文本中所包括的词语之间的关系。如本文所用的,“词语(term)”旨在包含单词、短语、字母组合词、缩略词等。从源文档提取的数据进而可被用来推断数据集间的关系。
更具体地,数据集可具有被指派给它的词语,其中所述词语指示该数据集的内容。例如,该词语可以是该数据集的标题。在另一示例中,该词语可以是数据集的设计者指派给该数据集的标签。在又一示例中,数据集可具有行和列,其中向行和列指派了标题。这些标题中的一者或多者可以是该数据集的标签。在又一示例中,数据集中最频繁出现的词语的阈值数量内的词语可以是被指派给该数据集的标签。感兴趣的数据集集合中的每个数据集可具有指派给它的至少一个词语。因此,当基于对源文档110-114的分析发现被指派给第一数据集的第一词语(其指示该第一数据集的内容)和被指派给第二数据集的第二词语(其指示该第二数据集的内容)相关时,则可以推断出第一数据集和第二数据集的内容同样相关。
计算设备102包括处理器116和存储器118,其中存储器118的内容能被处理器116访问。例如,存储器118可包括能被处理器访问的数据和由处理器执行的组件。存储器118可任选地包括感兴趣的词语120。例如,感兴趣的词语120中的每个词语可被指派给至少一个感兴趣的数据集。从而,例如,感兴趣的词语120中的词语可以是数据集集合中的数据集的标题。
存储器118还包括被配置成在源文档110-114的至少一子集中搜索感兴趣的词语120中的词语的计数器组件122。一般而言,计数器组件122被配置成标识源文档110-114中的词语对(pair of terms)的同时出现(co-occurrence),其中词语对中的每个词语被包括在感兴趣的词语120中。在非限制性示例中,计数器组件122可被配置成针对源文档中包括感兴趣的词语120中的词语q的每个文档对词语i的出现次数进行计数。
因此,例如,计算设备102可访问第一数据源104并取得来自第一源文档110的第一源文档。计数器组件122可被配置成针对感兴趣的词语120中存在于第一源文档中的每个词语对该词语的出现次数进行计数。任选地,计数器组件122可基于词语在第一源文档中的出现次数而将一词语标记为第一源文档的主要词语。例如,当一词语为一文档中的最频繁出现的词语的阈值次数之一时,该词语可被标记为该文档的主要词语。在另一示例中,当一词语被包括在一文档的标题或摘要中时,该词语可被标记为该文档的主要词语。在又一示例中,当一词语在一文档的标题中且还在该文档的最频繁出现的词语的最高阈值次数中时,该词语可被标记为该文档的主要词语。
在一示例中,响应于计数器组件标识第一源文档的主要词语,计数器组件122可确定感兴趣的词语120不包括该主要词语。在此情况下,计数器组件122可避免计算词语(在感兴趣的词语120中)的同时出现,并可访问来自源文档110-114的下一源文档。
然而,当计数器组件122查明第一源文档的主要词语被包括在感兴趣的词语120中时,则计数器组件122可针对在该第一源文档中的每个感兴趣的词语对该感兴趣的词语的出现次数进行计数。在一非限制性示例中,如果感兴趣的词语120包括词语“事故”和“票据”,且计数器组件122确定第一源文档的主要词语是“事故”,则计数器组件122可对词语“票据”在该源文档中的出现次数进行计数。计数器组件122可计算感兴趣的词语120中标识的每个感兴趣的词语的相应计数值。从而,计数器组件122可输出包括以下的数据:1)第一源文档的主要关键词的身份;以及2)指示其它感兴趣的词语在第一源文档中的出现次数的计数值。此外,计数器组件122所输出的数据可包括第一源文档的源(例如,第一数据源104)的身份,并可进一步包括指示张贴或创建该源文档的时间的时间戳。在计数器组件122完成针对第一源文档的此处理之后,计数器组件122可访问下一源文档并重复上述处理。从而,计数器组件122可针对每个数据源104-108中的每个源文档执行该处理。
在另一示例性实施例中,计数器组件122可不关于任何感兴趣的词语执行上面引用的处理。在这样的实施例中,计数器组件122可访问源文档并标识其主要关键词。计数器组件122随后可对该源文档中的每个其它词语(排除掉预定义停止列表中的词语)的出现次数进行计数,以使得计数器组件122针对每个源文档的输出是包括以下的数据:1)该源文档的该主要词语(或该多个主要词语)的身份;2)该源文档中的其它词语的身份;3)该源文档中的每个词语的计数值;4)该源文档的源;以及5)时间戳。
存储器118还包括与计数器组件122通信的数据结构生成器组件124。数据结构生成器组件124接收计数器组件122的输出并生成基于该计数器组件122的输出的数据立方体126。在一示例中,如图所示,数据立方体可具有若干维度,包括但不限于主要词语、时间、和/或数据源。如可查明的,数据立方体126通过上面引用的维度来索引上面描述的计数值。如将在下面更详细地描述的,数据立方体126中的这些计数值可被用来显现数据集间的关系。
现在转向图2,示出了示出计数器组件122关于源文档202的示例性操作的图表200。如上所指示的,计数器组件122可通过网络109访问数据源104-108中的一个或多个,并可从这些数据源获得源文档202。在本示例中,源文档202包括以下词语:PM2.5、工厂(FACTORY)、汽车(CAR)以及风(WIND)。在此示例中,这些词语被包括在感兴趣的词语120中。
计数器组件122访问源文档202并对源文档202中上面提及的各词语中的每个词语的出现次数进行计数。如图所示,计数器组件122可确定词语“PM2.5”在源文档202中出现四次,词语“工厂”在源文档202中出现三次,词语“汽车”在源文档2020中出现两次,而词语“风”在源文档202中出现一次。在此示例中,主要词语是在源文档202中最常出现的词语。因此,计数器组件122可将PM2.5标识为主要词语。计数器组件122还可标识从其获得源文档202的数据源,以及被指派给该源文档202的时间值。
基于以上,计数器组件122可输出一数据结构204。数据结构204可包括标识从其获得源文档202的源的字段206、标识指派给源文档202的时间戳的字段208、标识源文档202的主要关键词(例如PM2.5)的字段210、标识词语PM2.5、工厂、汽车和风的计数值(在源文档202中出现次数)的字段212-218。响应于计数器组件122输出数据结构204,计数器组件122可访问下一源文档220,并重复上述处理。在计数器组件122完成对源文档220的处理之后,计数器组件122可访问下一源文档220,直到跨源104-108的所有源文档均已被处理为止。
如上所述,数据结构生成器组件124可接收数据结构204,以及与由计数器组件122所分析的源文档中的剩余者相对应的其它数据结构,并可基于这些数据结构来构造数据立方体126。
现在参考图3,示出了三维数据结构(例如数据立方体126)的示例性描绘。如图3中所示,由计数器组件122针对源文档110-114中的词语所计算的聚集计数值可由主要词语、时间、以及数据源中的至少一者索引。出于解释目的,图3中示出的数据立方体126被示出为按照主要词语和时间来索引计数值。数据立方体126包括在源文档110-114中标识的主要词语的列302。数据立方体126还包括指示所述主要词语所索引的词语(例如在感兴趣的词语120中)出现次数的计数值。例如,当词语“PM2.5”是源文档110-114中的主要词语时,词语“PM2.5”出现了935次,词语“汽车”出现了235次,词语“工厂”出现了321次,而词语“风”出现了18次。
这些计数值可指示:在源文档110-114中,词语“PM2.5”和词语“工厂”之间的关系比词语“PM2.5”和词语“风”之间的关系更强。在另一示例中,当词语“工厂”是源文档中的主要词语时,词语“PM2.5”出现了678次,词语“汽车”出现了13次,而词语“风”出现了34次。图3中的数据立方体126所描绘的计数值可以是跨时间的聚集计数值。如可查明的,计数值还可按照时间来索引。这将允许用户查明例如当词语“PM2.5”是所定义的时间窗(例如,上个月)的主要词语时,词语“汽车”的计数值。此外,如上所述,计数值可按照源来索引。因此,当词语“PM2.5”是主要词语时,可针对特定源获得词语“汽车”的计数值。从而,可基于词语、主要词语、阈值计数值、源、时间、或其任何适当组合来查询数据立方体126。
现在转到图4,示出了促成视觉上显现数据集间的关系的示例性系统400。系统400包括服务器计算设备402和客户端计算设备404,其中服务器计算设备402和客户端计算设备404通过网络405(例如,因特网)通信。客户端计算设备404包括客户端处理器406和客户端存储器408,其中客户端存储器408包括客户端存储器408能够访问的计算机可执行指令。客户端计算设备404还包括被配置成向用户呈现图形数据的显示器409(或与其通信)。
客户端存储器408包括可视化应用410,该可视化应用通常被配置成可视化数据集及数据集间的关系。在一示例中,浏览器可包括可视化应用110。可视化应用410包括指令传送器组件412,该指令传送器组件被配置成接收来自客户端计算设备404的用户的可视化指令。可视化指令可包括数据集的身份,其中用户希望查明并分析关于数据集的关系(例如,用户希望标识与所标识的数据集相关的其它数据集)。可视化指令还可包括过滤器参数,其中数据集关系基于过滤器参数被标识并被可视化。如下面将更详细地描述的,指令传送器组件412可通过用户界面控件(工具)来接收过滤器参数,所述用户界面控件诸如是滑块、单选按钮、下拉菜单等。
示例性过滤器参数包括一个或多个时间范围、源身份、关系强度阈值等。例如,当用户希望被提供基于在上周所做的社交联网帖子的关于涉及特定数据集的关系的可视化时,用户可进行输入以使得可视化指令标识该特定数据集、该社交联网站点、以及(上周的)时间范围。而且,用户可表达被提供(基于上面引用的社交联网帖子)与所标识的数据集最相关的前五个数据集的希望,并且可视化指令可包括限制在所返回的可视化中表示的数据集的数量的阈值值。在又一示例中,用户可请求所得到的可视化仅包括与所标识的数据集具有某个阈值相关量的数据集的表示,且该希望可用可视化指令来表达。
可视化应用410还包括显示组件414,该显示组件被配置成接收来自服务器计算设备402的可视化。当显示组件414接收来自服务器计算设备402的可视化时,显示组件414被配置成控制显示器408,以使得可视化418在该显示器上被呈现。可视化418根据由指令传送器组件412发送的可视化指令来图形地描绘数据集间的关系。而且,可视化418可随着用户陈述过滤器参数(例如通过上面引用的用户界面控件)而被实时更新。
服务器计算设备402包括服务器处理器420和服务器存储器422,其中服务器存储器422能被服务器处理器420访问。例如,服务器存储器422可包括服务器处理器420能访问的数据,并可进一步包括能被服务器处理器420执行的组件。服务器存储器422包括被指派给数据集以描述数据集的内容的词语。例如,所述词语可以是数据集的标题、由数据集的设计者或维护者指派给数据集的标签等。更具体地,服务器存储器422包括第一词语424到第m词语426,其中词语424-426被指派给相应的第一到第m数据集。此外,尽管未示出,然而服务器存储器422还可包括指示第一数据集到第m数据集的大小的数据(例如,指示数据集中的条目的数量的数据)、以及指示该数据集被指派给的类别(分类)的数据。
服务器存储器422还包括过滤器组件428,该过滤器组件被配置成接收被指令传送器组件412传送给服务器计算设备402的可视化指令;过滤器组件428被配置成基于可视化指令来查询数据立方体126。例如,响应于接收到可视化指令,过滤器组件428可被配置成在数据立方体126上构造并执行这些指令,其中查询被配置成根据可视化指令来过滤数据立方体126。
在一非限制性示例中,过滤器组件428可从客户端计算设备404接收第一数据集的身份以及可视化要描绘与第一数据集相关的所有数据集(在数据集集合中)的指示。过滤器组件428可标识被指派给第一数据集的第一词语并可基于该词语来查询数据立方体126。参考图3,该词语可以是PM2.5。过滤器组件428可查询数据立方体126以获得由PM2.5所索引的计数值(例如当PM2.5是主要词语时)。基于此查询,过滤器组件428可分别获得词语汽车、工厂和风的计数值235、321和18。在另一示例中,过滤器组件428可聚集计数值,以使得按照列索引的计数值可被添加到按照行索引的计数值(例如,对于汽车为235+234,对于工厂为325+678,而对于风为11+18)。
服务器存储器422还包括可视化器组件430,该可视化器组件与过滤器组件428通信并被配置成基于过滤器组件428的输出来构造可视化。继续以上示例,可视化器组件430响应于接收过滤器组件428的输出可标识向其指派了词语汽车、工厂和/或风的数据集。可视化器组件430随后可构造包括多个节点的可视化,其中第一节点表示在可视化指令中标识的该数据集,第二节点表示向其指派了词语“汽车”的数据集,第三节点表示向其指派了词语“工厂”的数据集,而第四节点标识向其指派了词语“风”的数据集。而且,可视化器组件430可构造节点以使得(在可视化中)其大小分别表示所述节点所表示的数据集中的条目的数量。在另一示例中,可视化器组件430可构造节点以使得节点被着色以表示数据集的类别。而且,可视化器组件430可构造可视化以使得第一节点通过第一边耦合到第二节点,第一节点通过第二边耦合到第三节点,而第一节点通过第三边耦合到第四节点。可视化器组件430可引起边的长度和/或线宽指示从数据立方体126提取的计数值——因此,边的长度和/或线宽可指示由被边耦合的节点所表示的数据集间的关系的强度。
服务器存储器422还包括传送器组件432,该传送器组件被配置成通过网络405将由可视化器组件430构造的可视化传送给客户端计算设备404。客户端计算设备404响应于接收到该可视化可随后在显示器409上呈现可视化418。
现在描述系统400的操作。客户端计算设备404的用户向可视化应用410陈述可视化指令。同样,如同上面指示的,这些可视化指令可包括至少一个数据集的身份,以及要被用来从数据立方体126获得计数值的过滤器参数。指令传送器组件412响应于从用户接收到可视化指令,将该可视化指令通过网络405传送给服务器计算设备402。过滤器组件428接收可视化指令,基于可视化指令构造查询,并在数据立方体126上执行该查询。过滤器组件428从而获得与被指派给由该用户标识的数据集的词语相关的词语的计数值。可视化器组件430接收由过滤器组件428从数据结构126提取的计数值,并基于该计数值构造可视化。传送器组件432通过网络405将该可视化传送给客户端计算设备404。
可视化应用410接收该可视化,且显示组件414控制显示器416来使得可视化418被呈现在显示器416上。用户可审阅可视化418来标识数据集间的关系。用户随后可通过向指令传送器组件412传送后续指令来细化可视化418。服务器计算设备402随后可基于这些指令更新该可视化并将经更新的可视化传送回客户端计算设备404。相应地,用户可被提供可视化并与该可视化交互(例如,通过藉由使用用户界面控件来提供过滤器参数),且系统400可实时地更新可视化418,从而允许用户基于各种过滤器参数或过滤器参数组合来探索数据集间的关系。
尽管系统400是在客户端-服务器布置中描绘的,然而应当理解,被描述为由服务器计算设备402和客户端计算设备404执行的功能可由单一计算设备执行。例如,客户端存储器408可包括数据集词语424-426,过滤器组件428,可视化器组件430,以及数据立方体126。
还要理解,过滤器组件428可对数据立方体126执行任何适当过滤。例如,过滤器组件428可按照时间过滤或聚集计数值。相应地,用户可基于在上周被指派给数据集的词语的同时出现(co-occurrence)来查明数据集间的关系的强度。在另一示例中,过滤器组件428可按照源过滤计数值。例如,用户可指示用户相信高度可信并与一数据集相关的数据源(例如特定新闻站点),且过滤器组件428可获得基于在来自该数据源的源文档中的词语同时出现的与该数据集有关的计数值。
在又一示例中,过滤器组件428可基于指定阈值从数据立方体126提取计数值。例如,用户可陈述一命令,该命令指示:对于被认为相关的两个数据集,表示这两个数据集的内容的词语的计数值必须高于一阈值。在又一示例中,过滤器组件428可基于要被包括在可视化中的关系的阈值数量来从数据结构126提取计数值。例如,用户可指示:可视化要呈现与一数据集最相关的前n个数据集,其中n由用户设置。
现在参考图5,示出了示例性可视化500,其可由可视化器组件430构造并由显示组件414呈现。可视化500包括多个节点502-508,这些节点分别表示可被指派给数据集的四个分类。例如,节点502可表示“环境”分类,节点504可表示“运输”分类,节点506可表示“商业”分类,而节点508可表示“天气”分类。
每个分类可被应用到多个数据集。因此,每个节点502-508可包括表示被所述分类分类的数据集的相应的多个节点。更具体而言,第一节点502可包括分别表示被分类为属于“环境”分类的四个数据集的节点510-516。类似地,节点504可包括分别表示被分类为属于“运输”分类的数据集的节点518-524;节点506可包括分别表示被分类为属于“商业”分类的数据集的节点526-532;而节点508可包括分别表示被分类为属于“天气”分类的数据集的节点534-540。
在一示例中,可视化器组件430可构造可视化500,以使得节点510-540具有表示节点510-540所表示的相应数据集中的条目的数量的大小。继续本文陈述的示例,节点510表示被指派词语“PM2.5”(例如标题为PM2.5)的数据集,节点518表示被指派词语“汽车”的数据集,节点526表示被指派词语“工厂”的数据集,而节点534表示被指派词语“风”的数据集。
图5中示出的可视化500描绘了由节点502-540所表示的分类和数据集的(一个或多个)创建者定义的关系。相应地,用户可查明,节点534-540表示关于天气的数据集。为了发现数据集间的更多关系,查看显示器416上的可视化500的用户可选择表示可视化500中的感兴趣的数据集的节点。如图5中所示,用户可采用指向机构542来选择表示被指派了词语“PM2.5”的数据集的节点510。如先前指示的,PM2.5可以是该数据集的标题。用于选择节点(以及从而选择数据集)的其它技术也被构想,包括通过姿势、语音命令等选择节点510。对节点510的选择担当被提供给指令传送器组件412的指令。例如,对节点510的选择可被用户执行以指示用户希望被提供关于与PM2.5数据集相关的数据集的信息。如先前描述的,用户还可能陈述其它过滤器参数(例如通过本文描述的用户界面控件)。
现在参考图6,示出了示例性可视化600,该可视化可响应于过滤器组件428基于对节点510的选择从数据立方体126提取计数值而被可视化器组件430构造。从而,参考图3,过滤器组件428可从数据立方体126提取指示词语PM2.5和汽车、PM2.5和工厂、以及PM2.5和风(例如,当PM2.5是主要词语时)在源文档110-114中的同时出现的次数的计数值。在一示例中,可视化器组件430可基于用户所提供的可视化指令来突出显示表示发现其与所选择节点510所表示的数据集相关的数据集的节点。这种突出显示可以通过将非相关数据集淡出到背景中或者使得表示相关数据集的节点在视觉上被增强来实现。在此示例中,汽车数据集(节点518所表示的数据集)、工厂数据集(节点526所表示的数据集)以及风数据集(节点534所表示的数据集)可被突出显示以指示这些数据集与所选择的PM2.5数据集(由节点510所表示的数据集)相关。
可视化器组件430还形成边来进一步表示数据集间的关系及数据集间的关系的强度(基于可视化指令)。例如,可视化器组件可构造将节点510与节点518连接的第一边602,可构造将节点510与节点526连接的第二边604,并可构造将节点510与节点534连接的第三边606。从而,分析可视化600的查看者可查明:基于在所标识的数据集中的词语的使用,节点518、526和534所表示的数据集各自与由节点510所表示的数据集相关。
现在转向图7,示出了可由可视化器组件430构造并被传送器组件432传送给客户端计算设备404的另一示例性可视化700。此处,边602-606的长度被示出为表示可视化700中的节点所表示的数据集间的关系的强度。相应地,节点518、526和534可在可视化700中移动(相对于可视化600)以向用户视觉地描绘关系的强度(基于用户所陈述的可视化指令)。例如,因为边604的长度短于边602和606的长度,用户可确定“PM2.5”数据集和“工厂”数据集之间的关系的强度大于“PM2.5”数据集和“风”数据集或“PM2.5”数据集和“汽车”数据集之间的关系的强度。附加地或替换地,边602-606的线宽可被形成以表示数据集间的关系的强度(关系的量)。例如,可视化器组件430可构造解说可视化500-700之间的平滑视觉过渡的可视化。
现在参考图8,示出可被用户用来陈述过滤器组件428在从数据立方体126提取计数值时所使用的过滤器参数的用户界面控件800的集合。在此示例中,用户界面控件800被描绘为滑块,然而其它类型的用户界面控件也被构想,诸如单选按钮、拨盘、文本框、下拉菜单等。第一滑块802允许用户陈述基于时间的过滤器准则。例如,将滑块802从左向右移动可缩短时间窗,其中仅从具有在该时间窗中的时间戳的源文档提取的计数值将被过滤器组件128从数据立方体126提取。
第二滑块804可被用来控制可视化中示出的关系的强度。例如,将滑块804从左向右移动增加阈值值,其中过滤器组件428仅从数据立方体126中提取高于该阈值值的计数值。类似地,将该滑块从右向左移动减小阈值值,以使得更弱的关系被可视化。第三滑块806可被用来设置要在可视化中描绘的关系的数量。例如,过滤器组件428可被配置成从数据立方体126中提取前n个计数值,而移动第三滑块806改变n的值。第四滑块808可被用来控制过滤器组件428在提取计数值时所使用的索引。例如,将第四滑块808向左移动使得过滤器组件128基于主要关键字从数据立方体126中提取计数值,而将第四滑块808向右移动使得过滤器组件128基于一般同时出现(例如,过滤器组件128跨索引聚集计数值)来从数据立方体126中提取计数值。相应地,第四滑块808可担当二元开关。
现在转向图9,示出了另一示例性可视化900,其可由可视化器组件430构造并由显示组件414呈现。可视化900包括表示相应的多个数据集的多个节点902-920。节点902-920通过边各自彼此耦合,所述边表示节点902-920所表示的数据集间的关系。在一示例中,可视化900可在三维中呈现并可旋转来描绘数据集间的关系(例如,由于可视化900中所表示的相对大数量的数据集)。如上所述,连接节点的每条边可表示被该边连接的节点所表示的数据集间的关系的强度。可视化900还可包括标识数据集的分类的图例922。例如,节点918和节点920(其表示“损坏的仪表”和“无主的车辆”数据集)两者可均被分类在“交通和停车”分类下。在另一示例中,节点910可表示“啮齿动物”数据集,其被分类在“公寓”分类下。相应地,节点902-920可被指派指示这些节点902-920所表示的数据集的分类的图形数据。
可视化900还包括用户界面控件800,该用户界面控件允许用户陈述(以及更新)过滤器参数,以使得可视化900可由用户“在运行中(on the fly)”修改。从而,用户可初始地被提供可视化900,其中可视化器组件430基于用户界面控件800中的滑块802-808的位置来构造该可视化。用户可审阅显示器409上的可视化900,并可确定,例如,她希望可视化900描绘基于非结构化数据源中的最近词语的使用的数据集间的关系。因此,用户可将滑块802向右移动,从而导致经更新的过滤器参数通过网络405被提供到过滤器组件428。可视化器组件430基于收到的过滤器参数动态地更新可视化,且传送器组件432传送经更新的可视化以在客户端计算设备404的显示器408上显示。可视化组件430响应于接收到经更新的过滤器参数立即更新该可视化——相应地,用户可交互式地探索数据集间的关系。
在另一示例中,用户可通过选择节点来过滤在可视化900中描绘的关系,其中所得到的可视化以所选择的节点为中心。例如,用户可选择表示“无主的车辆”数据集的节点920(例如使用指针542)。
现在参考图10,示出了可被可视化器组件430响应于用户选择表示“无主的车辆”数据集的节点920(以及设置工具800中的滑块)而构造的可视化1000。选择节点920可导致节点920被突出地显示在前景中,而不连接到节点920的边被从可视化900移除,由此减少混乱。更改工具800中的滑块可使得可视化器组件430更新该可视化(例如,添加节点、移除节点、更改边的长度等)。
图11-14示出了与显现数据集集合中的数据集间的关系有关的示例性方法。尽管各方法被表示和描述为顺序地执行的一系列动作,但要理解,这些方法不受该顺序的次序的限制。例如,一些动作能以与本文描述的不同的次序发生。另外,某一动作可以与另一动作并发地发生。此外,在一些实例中,实现本文描述的方法并不需要所有动作。
此外,本文描述的动作可以是可由一个或多个处理器实现的和/或存储在一个或多个计算机可读介质上的计算机可执行指令。计算机可执行指令可包括例程、子例程、程序、执行的线程等。另外,这些方法的动作的结果可以存储在计算机可读介质中,显示在显示设备上,等等。
现在参考图11,示出了促成构造数据立方体126的示例性方法1100。方法1100开始于1102,且在1104,访问来自文档源(例如,文档源104-108之一)的文档。在1106,文档中词语的出现被计数以确定这些词语出现的次数。在一示例中,被计数的词语可限于被指派给数据集的词语。在另一示例中,每个词语的出现(除了在停止列表中的词语之外)均可被计数。
在1108,基于一词语在文档中的出现次数,该词语被标记为该文档的主要词语。例如,主要词语可以是在该文档中最常出现的词语。
在1110,从该文档提取时间戳且生成标识该文档的源的数据。在1112,基于主要词语、其它词语在文档中出现次数、时间戳、以及数据源来更新数据立方体。在1114,做出关于是否存在要考虑的附加文档的判断。如果存在要考虑的附加文档,则方法1100返回1104。如果没有其它文档,则方法1100在1116完成。
现在参考图12,示出了促成显现数据集间的关系的示例性方法1200。方法1200开始于1202,并在1204,接收涉及第一词语或第二词语中的至少一者的查询。例如,第一词语可被指定为描述第一数据集的内容,而第二词语可被指定为描述第二数据集的内容。例如,查询可基于用户选择一数据集,其中第一词语是该数据集的标题。在1206,访问数据立方体126并基于该查询从该数据立方体提取计数值。计数值指示第一词语在来自多个源文档中的文档子集中的聚集的出现次数,其中第二词语在该数据结构中被标识为该文档子集中的每个文档的主要词语。如同上面所指示的,文档的主要词语可以是该文档中最常出现的词语。相应地,一词语可以是多个文档的主要词语。
在1208,基于计数值来构造可视化,其中可视化指示第一数据集与第二数据集相关。示例性可视化以在上面被讨论。在1210,将该可视化传送至网络可访问的计算设备以在显示器上呈现。方法1200在1212完成。
现在参考图13,示出了用于向用户描绘数据集间的关系的示例方法1300。方法1300开始于1302,且在1304,向服务器计算设备传送对于可视化的请求,其中该请求标识数据集和过滤器参数。例如,对于可视化的请求可响应于用户标识感兴趣的数据集并陈述查询数据立方体126的准则而被传送。在1306,在传送对于可视化的请求之后,从服务器计算设备接收该可视化。在1308,在显示器上呈现该可视化以标识与由用户标识的数据集相关的关系。方法1300在1310完成。
现在参考图14,示出了促成响应于接收用户输入而更新可视化的示例性方法1400。方法1400开始于1402,且在1404,生成可视化,其中该可视化表示实体间的关系。例如,如上所述,该可视化可表示数据集间的关系,然而要理解,该可视化可表示其它类型的实体间的关系。基于在数据立方体上执行的查询来生成该可视化,其中该数据立方体包括指示实体间的关系的值。而且,该查询基于过滤器参数的值,其中该数据立方体被基于过滤器参数的值过滤(例如,切片或切割)。过滤器参数的值可由用户设置,可以是默认值等。如同前面所指示的,过滤器参数可以是时间、关系强度等。
在1406,接收关于该可视化的用户输入,其中该用户输入导致该过滤器参数的值的更新。例如,该用户输入可通过与该可视化一起被显示在显示器上的用户界面控件来接收。这样的用户界面控件可以是滑块、单选按钮、下拉菜单、文本框、拨盘等。
在1408,响应于接收到用户输入立即更新该可视化。即,该查询被更新以反映过滤器参数的经更新的值,且经更新的查询在该数据立方体上被执行,从而导致从该数据立方体提取经更新的关系数据。随后基于从该立方体提取的经更新的关系数据来更新该可视化,其中该可视化被在显示器上显示给用户。联系显示经更新的可视化,可呈现从先前的可视化到经更新的可视化的平滑过渡。用户随后具有通过经由与该可视化一起被显示的用户界面控件来陈述输入来进一步更新该过滤器参数(或另一过滤器参数)的选词语。方法1400在1410完成。
现在陈述涉及本文描述的方面的多个示例。
示例1:一种被配置成标识数据集间的关系的计算系统,所述计算系统包括:处理器;以及计算机可读存储,所述计算机可读存储包括由所述处理器执行的组件,所述组件包括:过滤器组件,所述过滤器组件接收标识第一词语或第二词语中的至少一者的查询,所述第一词语被指定为描述第一数据集的内容,所述第二词语被指定为描述第二数据集的内容,所述过滤器组件进一步响应于接收所述查询而访问数据立方体并从所述数据立方体提取计数值,所述计数值指示所述第一词语在来自多个源文档中的文档子集中的出现的聚集次数,所述第二词语在所述数据立方体中被标识为所述文档子集中的每个文档的主要词语;可视化器组件,所述可视化器组件基于由所述过滤器组件从所述数据立方体提取的所述计数值来形成可视化,所述可视化指示所述第一数据集与所述第二数据集相关。
示例2:如示例1所述的计算系统,当所述第二词语在一文档中的出现次数大于或等于所有其它词语在所述文档中的出现次数时,所述第二词语是所述文档的主要关键字。
示例3:如示例1-2中任一者所述的计算系统,所述组件进一步包括传送器组件,所述传送器组件向发出所述查询的客户端计算设备传送所述可视化,所述客户端计算设备在显示器上呈现所述可视化。
示例4:如示例1-3中任一者所述的计算系统,所述可视化器组件形成的所述可视化包括第一节点、第二节点、以及将所述第一节点和所述第二节点耦合的边,所述第一节点表示所述第一数据集,所述第二节点表示所述第二数据集,且所述边指示所述第一数据集和所述第二数据集相关。
示例5:如示例4所述的计算系统,由所述可视化组件形成的所述可视化的边具有一长度,所述长度指示所述计数值。
示例6:如示例4所述的计算系统,由所述可视化组件形成的所述可视化的边具有一宽度,所述宽度指示所述计数值。
示例7:如示例1-6中任一者所述的计算系统,所述过滤器组件访问所述数据立方体并基于在所述查询中陈述的所述数据立方体的至少一个维度的值来提取所述计数值。
示例8:如示例1-7中任一者所述的计算系统,所述至少一个维度是时间,所述至少一个维度的值指定一时间范围,所述文档子集中的每个文档具有被指派给它的、指示所述文档在所述查询中陈述的所述时间范围内创建的相应时间戳。
示例9:如示例8所述的计算系统,所述至少一个维度是文档的源,所述至少一个维度的值指定特定源,所述文档子集中的每个文档被标记为已从所述特定源接收。
示例10:如示例1-9中任一者所述的计算系统,所述组件进一步包括:计数器组件,所述计数器组件访问所述多个源文档,并且针对所述多个源文档中的每个文档,计算所述第一词语在所述文档中的出现次数以及所述第二词语在所述文档中的出现次数;以及数据结构生成器组件,所述数据结构生成器组件基于所述第一词语在每个文档中的出现次数和所述第二词语在每个文档中的出现次数来形成所述数据立方体。
示例11:如示例10所述的计算系统,所述数据结构生成器组件基于由所述计数器组件计算的所述第二词语在所述文档子集中的每个文档中的出现的次数来确定所述第二词语是所述文档子集中的每个文档的主要词语。
示例12:如示例1-11中任一者所述的计算系统,所述查询包括过滤器参数的值,其中所述过滤器组件接收对通过用户界面控件陈述的所述过滤器参数的值的更新,并且响应于接收对所述过滤器参数的值的更新:更新所述查询以包括所述过滤器参数的经更新的值;以及在所述数据立方体上执行经更新的查询来从所述数据立方体提取经更新的计数值;以及进一步其中所述可视化器组件基于所述经更新的计数值生成经更新的可视化,所述经更新的可视化描绘在所述第一数据集和所述第二数据集之间的经更改的关系。
示例13:一种用于可视化数据集间的关系的方法,所述方法包括:生成表示实体之间的第一关系的可视化,所述可视化是基于在数据立方体上执行的查询中包括的过滤器参数的值生成的,所述数据立方体包括指示所述实体间的关系的计数值;通过用户界面控件接收关于所述可视化的用户输入,所述用户输入包括所述过滤器参数的经更新的值;以及响应于接收所述用户输入立即生成经更新的可视化,所述经更新的可视化是基于所述过滤器参数的经更新的值生成的,所述经更新的可视化表示所述实体之间的第二关系。
示例14:如示例13所述的方法,所述实体是数据集。
示例15:如示例14所述的方法,其中生成所述可视化包括:接收所述查询,所述查询标识第一词语或第二词语中的至少一者,所述第一词语被指定为描述所述数据集中的第一数据集的内容,所述第二词语被指定为描述所述数据集中的第二数据集的内容;响应于接收到所述查询而从所述数据立方体中提取计数值,所述计数值指示所述第一词语在来自多个源文档中的文档子集中的聚集的出现次数,所述第二词语在所述数据立方体中被标识为所述文档子集中的每个文档的主要词语;以及基于由所述过滤器组件从所述数据立方体提取的所述计数值来生成所述可视化,所述可视化指示所述第一数据集与所述第二数据集相关。
示例16:如示例15所述的方法,其中基于所述计数值生成所述可视化包括:形成表示所述第一数据集的第一节点;形成表示所述第二数据集的第二节点;以及用边连接所述第一节点和所述第二节点,所述边指示所述第一数据集与所述第二数据集相关。
示例17:如示例16所述的方法,其中用所述边连接所述第一节点和所述第二节点包括:基于所述计数值计算所述边的长度;以及用具有所述长度的边来连接所述第一节点和所述第二节点。
示例18:如示例16-17中的任一者所述的方法,其中形成所述第一节点包括基于所述第一数据集中的条目的数量来计算所述第一节点的大小,以及其中形成所述第二节点包括基于所述第二数据集中的条目的数量来计算所述第二节点的大小。
示例19:如示例13-18中任一者所述的方法,其中所述用户界面控件是滑块、拨盘、文本框、或单选按钮之一。
示例20:一种包括指令的计算机可读存储介质,所述指令当由处理器执行时使得所述处理器执行动作,所述动作包括:响应于标识第一数据集或第二数据集中的至少一者的查询的接收而访问数据立方体并从所述数据立方体提取计数值,所述计数值指示文档集合中包括所述第一词语和所述第二词语两者的文档的数量,所述第一词语被指派给第一数据集,所述第二词语被指派给第二数据集;以及基于所述计数值构造可视化,所述可视化指示所述第一数据集与所述第二数据集相关,所述可视化包括表示所述第一数据集的第一节点、表示所述第二数据集的第二节点、以及具有一长度的边,所述边连接所述第一节点和所述第二节点,所述长度指示从所述数据集提取的计数值。
示例21:一种用于可视化数据集间的关系的计算系统,所述计算系统包括:用于生成表示实体之间的第一关系的可视化的装置,所述可视化是基于在数据立方体上执行的查询中包括的过滤器参数的值生成的,所述数据立方体包括指示所述实体间的关系的计数值;用于通过用户界面控件接收关于所述可视化的用户输入的装置,所述用户输入包括所述过滤器参数的经更新的值;以及用于响应于接收所述用户输入立即生成经更新的可视化的装置,所述经更新的可视化是基于所述过滤器参数的经更新的值生成的,所述经更新的可视化表示所述实体之间的第二关系。
现在参考图15,示出了可以根据本文公开的系统和方法使用的示例性计算设备1500的高级图示。例如,计算设备1500可以用在支持构造数据立方体126的系统中。作为另一示例,计算设备1500可被用于支持生成描绘数据集间的关系的可视化的系统中。计算设备1500包括执行存储在存储器1504中的指令的至少一个处理器1502。这些指令可以是例如用于实现被描述为由上述一个或多个组件执行的功能的指令或用于实现上述方法中的一个或多个的指令。处理器1502可以通过系统总线1506访问存储器1504。除了存储可执行指令,存储器1504还可存储感兴趣的词语、数据立方体的至少一部分等。
此外,计算设备1500还包括可由处理器1502通过系统总线1506访问的数据存储1508。数据存储1508可以包括可执行指令、数据集、数据立方体126等等。计算设备1500还包括输入接口1510,输入接口1510允许外部设备与计算设备1500通信。例如,输入接口1510可被用于从外部计算机设备、从用户等处接收指令。计算设备1500也可包括使计算设备1500和一个或多个外部设备相对接的输出接口1512。例如,计算设备1500可以通过输出接口1512显示文本、图像等。
考虑了通过输入接口1510和输出接口1512与计算设备1500通信的外部设备可被包括在提供实质上任何类型的用户可与之交互的用户界面的环境中。用户界面类型的示例包括图形用户界面、自然用户界面等。例如,图形用户界面可接受来自用户采用诸如键盘、鼠标、遥控器等之类的(诸)输入设备的输入,以及在诸如显示器之类的输出设备上提供输出。此外,自然语言界面可使得用户能够以无需受到诸如键盘、鼠标、遥控器等之类的输入设备强加的约束的方式来与计算设备1500交互。相反,自然用户界面可依赖于语音识别、触摸和指示笔识别、屏幕上和屏幕附近的姿势识别、空中姿势、头部和眼睛跟踪、语音和语音、视觉、触摸、姿势、以及机器智能等。
此外,尽管被示为单个系统,但可以理解,计算设备1500可以是分布式系统。因此,例如,若干设备可以通过网络连接进行通信并且可共同执行被描述为由计算设备1500执行的任务。
本文中描述的各功能可在硬件、软件或其任何组合中实现。如果在软件中实现,则这些功能可以作为一条或多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机可读存储介质。计算机可读存储介质可以是能被计算机访问的任何可用存储介质。作为示例而非限定,这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁存储设备、或能被用来承载或存储指令或数据结构形式的期望程序代码且能被计算机访问的任何其他介质。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟(BD),其中盘通常以磁的方式再现数据,而碟通常用激光以光学方式再现数据。另外,所传播的信号不被包括在计算机可读存储介质的范围内。计算机可读介质还包括通信介质,该通信介质包括促成将计算机程序从一地转移到另一地的任何介质。连接例如可以是通信介质。例如,如果软件使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外线、无线电、以及微波之类的无线技术来从web网站、服务器、或其它远程源传输,则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外线、无线电、以及微波之类的无线技术被包括在通信介质的定义中。上述的组合应当也被包括在计算机可读介质的范围内。
替换地或另选地,此处描述的功能可以至少部分由一个或多个硬件逻辑组件来执行。例如、但非限制,可使用的硬件逻辑组件的说明性类型包括现场可编程门阵列(FPGA)、程序专用的集成电路(ASIC)、程序专用的标准产品(ASSP)、片上系统系统(SOC)、复杂可编程逻辑器件(CPLD)、等等。
以上所描述的包括一个或多个实施例的示例。当然,出于描绘前述各方面的目的而描述上述设备或方法的每个可以想到修改和改变是不可能的,但本领域内的普通技术人员可以认识到,各方面的许多另外的组合和置换都是可能的。因此,所描述的各方面旨在包括所有这些属于所附权利要求书的精神和范围内的改变、修改和变型。此外,就在详细描述或权利要求书中使用术语“包括”而言,这一术语旨在以与术语“包含”在被用作权利要求书中的过渡词时所解释的相似的方式为包含性的。

Claims (20)

1.一种被配置成标识数据集间的关系的计算系统,所述计算系统包括:
处理器;以及
计算机可读存储,所述计算机可读存储包括由所述处理器执行的组件,所述组件包括:
过滤器组件,所述过滤器组件接收标识第一词语或第二词语中的至少一者的查询,所述第一词语被指定为描述第一数据集的内容,所述第二词语被指定为描述第二数据集的内容,所述过滤器组件进一步响应于接收所述查询而访问数据立方体并从所述数据立方体提取计数值,所述计数值指示所述第一词语在来自多个源文档中的文档子集中的聚集的出现次数,所述第二词语在所述数据立方体中被标识为所述文档子集中的每个文档的主要词语;
可视化器组件,所述可视化器组件基于由所述过滤器组件从所述数据立方体提取的所述计数值来形成可视化,所述可视化指示所述第一数据集与所述第二数据集相关。
2.如权利要求1所述的计算系统,其特征在于,当所述第二词语在一文档中的出现次数大于或等于所有其它词语在所述文档中的出现次数时,所述第二词语是所述文档的主要关键字。
3.如权利要求1所述的计算系统,其特征在于,所述组件进一步包括传送器组件,所述传送器组件向发出所述查询的客户端计算设备传送所述可视化,所述客户端计算设备在显示器上呈现所述可视化。
4.如权利要求1所述的计算系统,其特征在于,所述可视化器组件形成的所述可视化包括第一节点、第二节点、以及将所述第一节点和所述第二节点耦合的边,所述第一节点表示所述第一数据集,所述第二节点表示所述第二数据集,且所述边指示所述第一数据集和所述第二数据集相关。
5.如权利要求4所述的计算系统,其特征在于,由所述可视化组件形成的所述可视化的边具有一长度,所述长度指示所述计数值。
6.如权利要求4所述的计算系统,其特征在于,由所述可视化组件形成的所述可视化的边具有一宽度,所述宽度指示所述计数值。
7.如权利要求1所述的计算系统,其特征在于,所述过滤器组件访问所述数据立方体并基于在所述查询中陈述的所述数据立方体的至少一个维度的值来提取所述计数值。
8.如权利要求7所述的计算系统,其特征在于,所述至少一个维度是时间,所述至少一个维度的值指定一时间范围,所述文档子集中的每个文档具有被指派给它的、指示所述文档在所述查询中陈述的所述时间范围内创建的相应时间戳。
9.如权利要求7所述的计算系统,其特征在于,所述至少一个维度是文档的源,所述至少一个维度的值指定特定源,所述文档子集中的每个文档被标记为已从所述特定源接收。
10.如权利要求1所述的计算系统,其特征在于,所述组件进一步包括:
计数器组件,所述计数器组件访问所述多个源文档,并且针对所述多个源文档中的每个文档,计算所述第一词语在所述文档中的出现次数以及所述第二词语在所述文档中的出现次数;以及
数据结构生成器组件,所述数据结构生成器组件基于所述第一词语在每个文档中的出现次数和所述第二词语在每个文档中的出现次数来形成所述数据立方体。
11.如权利要求10所述的计算系统,其特征在于,所述数据结构生成器组件基于由所述计数器组件计算的所述第二词语在所述文档子集中的每个文档中的出现次数来确定所述第二词语是所述文档子集中的每个文档的主要词语。
12.如权利要求1所述的计算系统,其特征在于,所述查询包括过滤器参数的值,其中所述过滤器组件接收对通过用户界面控件陈述的所述过滤器参数的值的更新,并且响应于接收对所述过滤器参数的值的更新:
更新所述查询以包括所述过滤器参数的经更新的值;以及
在所述数据立方体上执行经更新的查询来从所述数据立方体提取经更新的计数值;以及进一步其中所述可视化器组件基于所述经更新的计数值生成经更新的可视化,所述经更新的可视化描绘在所述第一数据集和所述第二数据集之间的经更改的关系。
13.一种用于可视化数据集间的关系的方法,所述方法包括:
生成表示实体之间的第一关系的可视化,所述可视化是基于在数据立方体上执行的查询中包括的过滤器参数的值生成的,所述数据立方体包括指示所述实体间的关系的计数值;
通过用户界面控件接收关于所述可视化的用户输入,所述用户输入包括所述过滤器参数的经更新的值;以及
响应于接收所述用户输入立即生成经更新的可视化,所述经更新的可视化是基于所述过滤器参数的经更新的值生成的,所述经更新的可视化表示所述实体之间的第二关系。
14.如权利要求13所述的方法,其特征在于,所述实体是数据集。
15.如权利要求14所述的方法,其特征在于,生成所述可视化包括:
接收所述查询,所述查询标识第一词语或第二词语中的至少一者,所述第一词语被指定为描述所述数据集中的第一数据集的内容,所述第二词语被指定为描述所述数据集中的第二数据集的内容;
响应于接收到所述查询而从所述数据立方体中提取计数值,所述计数值指示所述第一词语在来自多个源文档中的文档子集中的聚集的出现次数,所述第二词语在所述数据立方体中被标识为所述文档子集中的每个文档的主要词语;以及
基于由所述过滤器组件从所述数据立方体提取的所述计数值来生成所述可视化,所述可视化指示所述第一数据集与所述第二数据集相关。
16.如权利要求15所述的方法,其特征在于,基于所述计数值生成所述可视化包括:
形成表示所述第一数据集的第一节点;
形成表示所述第二数据集的第二节点;以及
用边连接所述第一节点和所述第二节点,所述边指示所述第一数据集与所述第二数据集相关。
17.如权利要求16所述的方法,其特征在于,用所述边连接所述第一节点和所述第二节点包括:
基于所述计数值计算所述边的长度;以及
用具有所述长度的边来连接所述第一节点和所述第二节点。
18.如权利要求16所述的方法,其特征在于,形成所述第一节点包括基于所述第一数据集中的条目的数量来计算所述第一节点的大小,以及其中形成所述第二节点包括基于所述第二数据集中的条目的数量来计算所述第二节点的大小。
19.如权利要求13所述的方法,其特征在于,所述用户界面控件是滑块、拨盘、文本框、或单选按钮之一。
20.一种包括指令的计算机可读存储介质,所述指令当由处理器执行时使得所述处理器执行动作,所述动作包括:
响应于标识第一数据集或第二数据集中的至少一者的查询的接收而访问数据立方体并从所述数据立方体提取计数值,所述计数值指示文档集合中包括所述第一词语和所述第二词语两者的文档的数量,所述第一词语被指派给第一数据集,所述第二词语被指派给第二数据集;以及
基于所述计数值构造可视化,所述可视化指示所述第一数据集与所述第二数据集相关,所述可视化包括表示所述第一数据集的第一节点、表示所述第二数据集的第二节点、以及具有一长度的边,所述边连接所述第一节点和所述第二节点,所述长度指示从所述数据集提取的计数值。
CN201480076137.3A 2014-12-23 2014-12-23 显现数据集间的关系 Active CN106030570B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2014/094625 WO2016101133A1 (en) 2014-12-23 2014-12-23 Surfacing relationships between datasets

Publications (2)

Publication Number Publication Date
CN106030570A true CN106030570A (zh) 2016-10-12
CN106030570B CN106030570B (zh) 2020-09-29

Family

ID=56129688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480076137.3A Active CN106030570B (zh) 2014-12-23 2014-12-23 显现数据集间的关系

Country Status (4)

Country Link
US (1) US11256687B2 (zh)
EP (1) EP3238095A4 (zh)
CN (1) CN106030570B (zh)
WO (1) WO2016101133A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10191957B2 (en) * 2015-10-16 2019-01-29 Sap Se Limiting dataset cardinality for rapid data visualization
US10802846B2 (en) * 2015-11-13 2020-10-13 Vmware, Inc. Method of workspace modeling
JP6870442B2 (ja) * 2017-04-06 2021-05-12 富士電機株式会社 発生源分析装置および発生源分析システム
CN110019541B (zh) * 2017-07-21 2022-04-05 杭州海康威视数字技术股份有限公司 数据查询方法、装置及计算机可读存储介质
USD959476S1 (en) 2019-12-20 2022-08-02 Sap Se Display system or portion thereof with a virtual three-dimensional animated graphical user interface
US11205296B2 (en) * 2019-12-20 2021-12-21 Sap Se 3D data exploration using interactive cuboids
USD959477S1 (en) 2019-12-20 2022-08-02 Sap Se Display system or portion thereof with a virtual three-dimensional animated graphical user interface
USD959447S1 (en) 2019-12-20 2022-08-02 Sap Se Display system or portion thereof with a virtual three-dimensional animated graphical user interface

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0750266A1 (en) * 1995-06-19 1996-12-27 Sharp Kabushiki Kaisha Document classification unit and document retrieval unit
CN101079026A (zh) * 2007-07-02 2007-11-28 北京百问百答网络技术有限公司 文本相似度、词义相似度计算方法和系统及应用系统
CN101223525A (zh) * 2005-06-06 2008-07-16 加利福尼亚大学董事会 关系网络
KR20110035001A (ko) * 2009-09-29 2011-04-06 장인하 키워드 시각화 장치 및 그 방법
CN102136006A (zh) * 2011-03-30 2011-07-27 上海大学 基于人类概念学习的文本理解复杂度的度量方法
US20110307485A1 (en) * 2010-06-10 2011-12-15 Microsoft Corporation Extracting topically related keywords from related documents
CN103077157A (zh) * 2013-01-22 2013-05-01 清华大学 一种文本集合相似性的可视化方法和装置
US20140046983A1 (en) * 2011-05-05 2014-02-13 Centrifuge Pty Ltd Data Analysis
US8745054B1 (en) * 2005-11-30 2014-06-03 At&T Intellectual Property Ii, L.P. Method and apparatus for large volume text summary and visualization
CN103955531A (zh) * 2014-05-12 2014-07-30 南京提坦信息科技有限公司 基于命名实体库的在线知识地图
CN104102723A (zh) * 2014-07-21 2014-10-15 百度在线网络技术(北京)有限公司 搜索内容提供方法和搜索引擎
CN104160395A (zh) * 2012-02-29 2014-11-19 Ubic股份有限公司 文档分类系统、文档分类方法及文档分类程序

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5734886A (en) * 1994-11-16 1998-03-31 Lucent Technologies Inc. Database dependency resolution method and system for identifying related data files
JP3429184B2 (ja) * 1998-03-19 2003-07-22 シャープ株式会社 テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
US6006225A (en) * 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches
US6144958A (en) * 1998-07-15 2000-11-07 Amazon.Com, Inc. System and method for correcting spelling errors in search queries
US6629097B1 (en) * 1999-04-28 2003-09-30 Douglas K. Keith Displaying implicit associations among items in loosely-structured data sets
US6701309B1 (en) * 2000-04-21 2004-03-02 Lycos, Inc. Method and system for collecting related queries
JP4055638B2 (ja) * 2003-04-25 2008-03-05 株式会社日立製作所 文書処理装置
US7747632B2 (en) * 2005-03-31 2010-06-29 Google Inc. Systems and methods for providing subscription-based personalization
US7849049B2 (en) 2005-07-05 2010-12-07 Clarabridge, Inc. Schema and ETL tools for structured and unstructured data
CN101305366B (zh) 2005-11-29 2013-02-06 国际商业机器公司 从非结构化文本提取和显现图表结构化关系的方法和系统
US7979425B2 (en) * 2006-10-25 2011-07-12 Google Inc. Server-side match
US8099418B2 (en) * 2007-05-28 2012-01-17 Panasonic Corporation Information search support method and information search support device
US8935249B2 (en) * 2007-06-26 2015-01-13 Oracle Otc Subsidiary Llc Visualization of concepts within a collection of information
US20090228830A1 (en) * 2008-02-20 2009-09-10 Herz J C System and Method for Data Analysis and Presentation
US8358308B2 (en) 2008-06-27 2013-01-22 Microsoft Corporation Using visual techniques to manipulate data
US8719308B2 (en) 2009-02-16 2014-05-06 Business Objects, S.A. Method and system to process unstructured data
JP2010224625A (ja) * 2009-03-19 2010-10-07 Nomura Research Institute Ltd キーワード二次元可視化方法およびキーワード二次元可視化プログラム
CN102314424B (zh) * 2010-07-01 2017-03-01 商业对象软件有限公司 文件的基于维度的关系图示
US8935279B2 (en) * 2011-06-13 2015-01-13 Opus Deli, Inc. Venue-related multi-media management, streaming, online ticketing, and electronic commerce techniques implemented via computer networks and mobile devices
US8775517B1 (en) 2011-07-12 2014-07-08 Relationship Science LLC Viewing connectivity between user and entity of an information service
US8956974B2 (en) * 2012-06-29 2015-02-17 Micron Technology, Inc. Devices, systems, and methods related to planarizing semiconductor devices after forming openings
US20140025650A1 (en) * 2012-07-18 2014-01-23 Microsoft Corporation Abstract relational model for transforming data into consumable content

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0750266A1 (en) * 1995-06-19 1996-12-27 Sharp Kabushiki Kaisha Document classification unit and document retrieval unit
CN101223525A (zh) * 2005-06-06 2008-07-16 加利福尼亚大学董事会 关系网络
US8745054B1 (en) * 2005-11-30 2014-06-03 At&T Intellectual Property Ii, L.P. Method and apparatus for large volume text summary and visualization
CN101079026A (zh) * 2007-07-02 2007-11-28 北京百问百答网络技术有限公司 文本相似度、词义相似度计算方法和系统及应用系统
KR20110035001A (ko) * 2009-09-29 2011-04-06 장인하 키워드 시각화 장치 및 그 방법
US20110307485A1 (en) * 2010-06-10 2011-12-15 Microsoft Corporation Extracting topically related keywords from related documents
US8463786B2 (en) * 2010-06-10 2013-06-11 Microsoft Corporation Extracting topically related keywords from related documents
CN102136006A (zh) * 2011-03-30 2011-07-27 上海大学 基于人类概念学习的文本理解复杂度的度量方法
US20140046983A1 (en) * 2011-05-05 2014-02-13 Centrifuge Pty Ltd Data Analysis
CN104160395A (zh) * 2012-02-29 2014-11-19 Ubic股份有限公司 文档分类系统、文档分类方法及文档分类程序
CN103077157A (zh) * 2013-01-22 2013-05-01 清华大学 一种文本集合相似性的可视化方法和装置
CN103955531A (zh) * 2014-05-12 2014-07-30 南京提坦信息科技有限公司 基于命名实体库的在线知识地图
CN104102723A (zh) * 2014-07-21 2014-10-15 百度在线网络技术(北京)有限公司 搜索内容提供方法和搜索引擎

Also Published As

Publication number Publication date
EP3238095A4 (en) 2018-07-11
US11256687B2 (en) 2022-02-22
CN106030570B (zh) 2020-09-29
EP3238095A1 (en) 2017-11-01
WO2016101133A1 (en) 2016-06-30
US20160179925A1 (en) 2016-06-23

Similar Documents

Publication Publication Date Title
CN106030570A (zh) 显现数据集间的关系
CN102893275B (zh) 用于自动社交网络图挖掘和可视化的方法和系统
CN106104518A (zh) 用于按照示例的数据提取的框架
US20160004759A1 (en) Platform for Managing and Visualizing Data on a Computer
CN106203761A (zh) 提取并显现来自数据源的用户工作属性
CN104462056B (zh) 用于呈现基于知识的信息的方法和信息操纵系统
US20060117067A1 (en) System and method for interactive visual representation of information content and relationships using layout and gestures
US11100141B2 (en) Monitoring organization-wide state and classification of data stored in disparate data sources of an organization
Roy Chowdhury et al. Complementary assistance mechanisms for end user mashup composition
JP6884435B2 (ja) 協力会社サプライチェーンリスク分析方法
US10296626B2 (en) Graph
Aufaure et al. Advances in FCA-based applications for social networks analysis
JP2009134520A (ja) ソーシャルネットワーク表示システム、方法、及びプログラム
KR101693727B1 (ko) 소셜 네트워크를 활용한 연구개발 관점의 사회적 이슈 재구성 장치 및 방법
Mansoor et al. Scientometric analysis and critical review on the application of deep learning in the construction industry
Amirhosseini et al. OntoAbsolute as a ontology evaluation methodology in analysis of the structural domains in upper, middle and lower level ontologies
Faisal et al. A classification of sensemaking representations
KR20160014944A (ko) 3차원 마인드맵 생성 장치 및 그 방법
TWI582624B (zh) 用於感知情境並推薦資訊之電子計算裝置、其方法及其電腦程式產品
US10782947B2 (en) Systems and methods of diagram transformation
KR20140059054A (ko) 소셜 네트워크 요소의 시각화 방법 및 장치
JPWO2014108994A1 (ja) プロジェクトデータ作成装置
JP2012008663A (ja) 思考の過程で対話により知識の構造化、ビジュアル化を支援し、構造化した知識を共有化できる対話型知識データベースシステム12
Hu et al. Shareflow: A visualization tool for information diffusion in social media
EP2953016B1 (en) System and method for interactively visualizing rules and exceptions

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant