CN117795501A

CN117795501A - 地理空间查询的视觉自动完成

Info

Publication number: CN117795501A
Application number: CN202280053808.9A
Authority: CN
Inventors: V·R·塞特勒; S·E·巴特斯比; T·王
Original assignee: Tableau Software LLC
Current assignee: Tableau Software LLC
Priority date: 2021-06-20
Filing date: 2022-06-07
Publication date: 2024-03-29

Abstract

本发明公开了一种方法，其提供数据集的视觉分析。用户选择数据源。作为响应，系统呈现用于分析数据源中的数据的自然语言界面，并且呈现用于从数据源选择地理空间数据点的地图小部件。用户提供用于指定涉及数据源的不完整自然语言命令的第一用户输入，并且提供用于选择地图小部件中的区域的第二用户输入。响应于第一用户输入和第二用户输入，系统根据第一用户输入和第二用户输入生成和显示地图数据可视化，包括对所选择区域中的数据点的语言描述。系统继续在地图小部件中显示所选择区域。地图小部件被配置为根据对所选择区域的用户修改而更新数据可视化。

Description

地理空间查询的视觉自动完成

相关申请

本申请是2022年1月31日提交的名称为“Visual Autocompletion forGeospatial Queries”的美国专利申请序列号17/588,997的继续申请，该美国专利申请要求2021年6月20日提交的名称为“Visual Autocompletion for Geospatial Queries”美国临时申请序列号63/212,710的优先权，这些美国申请中的每一者全文以引用方式并入本文中。

本申请涉及2017年11月6日提交的名称为“Systems and Methods of UsingNatural Language Processing for Visual Analysis of a Data Set”的美国专利申请15/804,991，该美国专利申请全文以引用方式并入本文中。

本申请涉及2018年12月27日提交的名称为“Analyzing Underspecified NaturalLanguage Utterances in a Data Visualization User Interface”的美国专利申请16/234,470，该美国专利申请全文以引用方式并入本文中。

本申请涉及2018年12月14日提交的名称为“Data Preparation User Interfacewith Coordinated Pivots”的美国专利申请16/221,413，该美国专利申请全文以引用方式并入本文中。

本申请涉及2018年12月30日提交的名称为“Generating Data VisualizationsAccording to an Object Model of Selected Data Sources”的美国专利申请16/236,611，该美国专利申请全文以引用方式并入本文中。

本申请涉及2018年12月30日提交的名称为“Generating Data VisualizationsAccording to an Object Model of Selected Data Sources”的美国专利申请16/236,612，该美国专利申请全文以引用方式并入本文中。

本申请涉及2019年11月10日提交的名称为“Data Preparation Using SemanticRoles”的美国专利申请16/679,234，该美国专利申请全文以引用方式并入本文中。

本申请涉及2020年3月18日提交的名称为“Incorporating Data Visualizationsinto Database Conversational Interfaces”的美国临时专利申请62/991,342，该美国临时专利申请全文以引用方式并入本文中。

技术领域

所公开的实现方式整体涉及自然语言处理，并且更具体地涉及提供地理空间分析的视觉自动完成的系统、方法和用户界面。

背景技术

城市中心发生了多少起犯罪事件？准确来说，城镇的哪个部分才是“城市中心”？虽然位置是许多数据问题的核心，但是在自然语言(NL)查询中可能难以指定地理位置。当处理模糊认知区域或可能基于数据分布而不是绝对行政位置(例如，州、国家)定义的区域时，这一点尤其真实。涉及地点概念的信息搜寻是人类探究的一种普遍形式。尽管地点在信息搜寻中无处不在，但是地点的语义通常是主观的，因为人与人之间以及他们谈及地点的方式之间，解释各不相同。当用户表述信息目标时，他们通常将含糊的概念知识转化为更具体的描述。然而，这种转化可能是困难的，因为来自用户的“具体的”描述可能不匹配底层数据的结构或内容。当用户输入不匹配或者无法容易地作为NL查询置于字词中时，搜索过程通常不令人满意。

搜索界面可以通过用户界面支架(诸如自动完成)来帮助解决这些挑战中的一些挑战。当用户在其搜索任务的流中输入查询时，自动完成显示原位建议。这些建议向用户提供反馈，从而基于底层文档语料库帮助他们利用视觉线索生成有效查询。

在视觉分析中，地点是一个基本类别，通常用于在数据探索期间区分空间位置的有意义部分。随着用于视觉分析的NL工具的激增，用户可以用包含来自底层数据源的属性和值的明语来表达他们的分析性问题。与web搜索工具类似，视觉分析NL界面也提供自动完成来帮助用户表述查询。这些系统可以增强用户生成关于特定的命名位置(例如，州、省、国家)的NL空间查询的能力。然而，这些系统并没有提供一种自然且灵活的空间探索模式，无法更好地适应人们通常概念化空间的含糊方式。

空间语言很复杂，并且在NL使用中，存在标识空间介词和关系的预期含义方面的许多问题。表达地点相关术语的含糊性和歧义通常由于两个考虑造成。首先，通用地点术语诸如“地区”和“区域”通常是不明确的，因为它们的含义由多个不同但密切相关的意义组合而成。其次，地点的概念通常依赖于其他概念，诸如地理特征类型，这些其他概念本身是含糊的。

发明内容

公开文本描述了一种支持查询无法容易地以自然语言(NL)表示的命名区域，以及地理区域、认知区域或数据驱动区域的任意组合的系统。例如，可以通过认知区域的规范在视觉自动完成小部件中表达对地点的含糊定义。系统可以利用地图小部件提供数据的聚合视图，以基于数据分布或使用来自详细基本地图的上下文空间信息促进查询。在一些实现方式中，系统提供包括十六进制二进制文件的数据的视图，这些十六进制二进制文件被双重编码以使用颜色和大小反映计数。一些实现方式提供覆盖度量以帮助用户使用通常命名的行政地域以及数据特性估计和细化空间查询。在一些实现方式中，系统持久保存命名区域的空间定义以供未来查询使用。这确保分析的一致性并促进区域之间的比较。

根据一些实现方式，一种方法支持数据集的视觉分析。方法在具有一个或多个处理器和存储被配置用于由一个或多个处理器执行的一个或多个程序的存储器的计算系统处执行。方法包括接收对数据源的用户选择。方法还包括呈现用于分析所选择数据源中的数据的自然语言界面。方法还包括响应于接收到用于指定涉及数据源的不完整自然语言命令的第一用户输入：呈现地图小部件，以用于从数据源选择地理空间数据点；以及响应于接收到用于选择地图小部件中的区域的第二用户输入：根据第一用户输入和第二用户输入生成和显示地图数据可视化。

在一些实现方式中，方法还包括通过解析第一用户输入以检查语法解析树错误来确定第一用户输入是否指定不完整自然语言命令。

在一些实现方式中，方法还包括通过解析第一用户输入以标识地点相关令牌来确定第一用户输入是否指定不完整自然语言命令。

在一些实现方式中，第二用户输入是矩形或自由绘制选择。

在一些实现方式中，地图小部件包括对来自数据源的数据的聚合预览。在一些实现方式中，聚合预览包括将地图的区域显示为六边形的基于六边形箱图的预览。在一些实现方式中，地图小部件还包括用于附加空间上下文的详细基本地图。

在一些实现方式中，方法还包括生成和显示对所选择区域中的数据点的语言描述。

在一些实现方式中，方法还包括继续在地图小部件中显示所选择区域，其中地图小部件被配置为根据对所选择区域的用户修改而更新数据可视化。

在一些实现方式中，方法还包括接收和存储所选择区域的空间定义以供未来查询使用。在一些实现方式中，方法还包括：接收涉及数据源的空间查询；以及获取空间定义以生成和显示对空间查询的响应。

在一些实现方式中，方法还包括：生成和显示所选择区域的覆盖度量，覆盖度量帮助用户使用通常命名的行政地域以及数据特性估计和细化空间查询。在一些实现方式中，覆盖度量表示选择基于所选择数据点和重叠地理地区的比例来计算的特定地域的置信度水平。在一些实现方式中，地理地区包括选自由以下项构成的组的一个或多个区域：县、州和国家。在一些实现方式中，方法还包括基于覆盖度量对各个地理地区进行排序和显示。在一些实现方式中，根据覆盖度量使用梯度调色板来显示地理地区。

在一些实现方式中，方法还包括生成和显示两个用户标识的认知区域之间的比较。在一些实现方式中，比较包括针对这些区域中的每个区域中的最小值、最大值和平均值的统计。

因此，本发明公开了使得用户能够分析数据的方法、系统和图形用户界面。

附图说明

为了更好地理解前述系统、方法和图形用户界面，以及提供数据可视化分析和数据准备的附加系统、方法和图形用户界面，应当结合以下附图来参考以下具体实施方式，其中在整个附图中，相似的附图标记指代对应的部分。

图1示出了在一些实现方式中使用的示例性图形用户界面。

图2是根据一些实现方式的计算设备的框图。

图3示出了根据一些实现方式的示例性数据可视化界面。

图4示出了根据一些实现方式的支持视觉自动完成的示例性用户界面，该示例性用户界面用于在用户数据预览的分析性工作流期间提供用户数据预览。

图5示出了根据一些实现方式的示例性系统的示意图。

图6A至图6G、图7A至图7C、图8A、图8B、图9A至图9C、图10和图11示出了根据一些实现方式的示例性界面。

图12A至图12J提供了根据一些实现方式的使用自然语言进行数据集的视觉分析的方法的流程图。

现在将参考实现方式，其示例在附图中示出。在以下描述中，阐述了许多具体细节以便提供对本发明的透彻理解。然而，对于本领域普通技术人员而言将显而易见的是，可以在不需要这些具体细节的情况下实践本发明。

具体实施方式

图1示出了用于交互式数据分析的图形用户界面100。根据一些实现方式，用户界面100包括数据选项卡114和分析选项卡116。当选择数据选项卡114时，用户界面100显示模式信息区域110，其也称为数据窗格。模式信息区域110提供可以被选择并用于构建数据可视化的命名数据元素(例如，字段名称)。在一些实现方式中，字段名称列表被分成一组维度(例如，分类数据)和一组量度(例如，数值数量)。一些实现方式还包括参数列表。当选择分析选项卡116时，用户界面显示分析函数列表而不是数据元素(未示出)。

图形用户界面100还包括数据可视化区域112。数据可视化区域112包括多个架区域，诸如列架区域120和行架区域122。这些也称为列架120和行架122。如此处所示，数据可视化区域112也具有用于显示视觉图形(在本文中也称为数据可视化)的大空间。因为尚未选择数据元素，所以空间初始没有视觉图形。在一些实现方式中，数据可视化区域112具有称为工作表的多个层。在一些实现方式中，数据可视化区域112包括用于数据可视化过滤器的区域126。

在一些实现方式中，图形用户界面100还包括用于接收自然语言命令的自然语言输入框124(也称为命令框)。用户可以与命令框交互以提供命令。例如，用户可以通过在框124中键入自然语言命令来提供命令。另外，用户可以通过对着麦克风220讲话来与命令框间接交互以提供命令。在一些实现方式中，数据元素初始与列架120和行架122相关联(例如，使用从模式信息区域110到列架120和/或行架122的拖放操作)。在初始关联之后，用户可以使用自然语言命令(例如，在自然语言输入框124中)来进一步探索所显示的数据可视化。在一些情况下，用户使用自然语言输入框124创建初始关联，这导致一个或多个数据元素被放置在列架120和行架122上。例如，用户可以提供命令以创建数据元素X与数据元素Y之间的关系。响应于接收到命令，可以用数据元素填充列架120和行架122(例如，可以用数据元素X填充列架120，并且可以用数据元素Y填充行架122，反之亦然)。

图2是示出根据一些实现方式的可以显示图形用户界面100的计算设备200的框图。计算设备200的各种示例包括台式计算机、膝上型计算机、平板电脑、以及具有显示器和能够运行数据可视化应用222和/或数据准备应用230的处理器的其他计算设备。计算设备200通常包括：一个或多个处理单元/核(CPU)202，以用于执行存储在存储器214中的模块、程序和/或指令，从而执行处理操作；一个或多个网络或其他通信接口204；存储器214；和用于互连这些部件的一个或多个通信总线212。通信总线212可以包括互连和控制系统部件之间的通信的电路。

计算设备200包括用户接口206，其包括显示设备208和一个或多个输入设备或机构210。在一些实现方式中，输入设备/机构包括键盘。在一些实现方式中，输入设备/机构包括“软”键盘，其根据需要显示在显示设备208上，使得用户能够“按压”出现在显示器208上的“键”。在一些实现方式中，显示器208和输入设备/机构210包括触摸屏显示器(也称为触敏显示器)。

在一些实现方式中，存储器214包括高速随机存取存储器，诸如DRAM、SRAM、DDRRAM或其他随机存取固态存储器设备。在一些实现方式中，存储器214包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备或其他非易失性固态存储设备。在一些实现方式中，存储器214包括远离CPU 202定位的一个或多个存储设备。存储器214(或替代地，存储器214内的非易失性存储器设备)包括非暂态计算机可读存储介质。在一些实现方式中，存储器214或存储器214的计算机可读存储介质存储以下程序、模块和数据结构或其子集：

●操作系统216，其包括用于处理各种基本系统服务和用于执行硬件相关任务的程序；

●通信模块218，其用于经由一个或多个通信网络接口204(有线或无线)和一个或多个通信网络(诸如互联网、其他广域网、局域网、城域网等)将计算设备200连接到其他计算机和设备；

●web浏览器220(或能够显示网页的其他应用)，其使得用户能够通过网络与远程计算机或设备通信；

·数据可视化应用222，其为用户提供数据可视化用户界面224

(例如，图形用户界面100)以构造视觉图形和/或询问自然语言查询。例如，用户选择一个或多个数据源236(其可以存储在计算设备200上或远程存储)，从数据源选择数据字段和/或从数据源搜索匹配自然语言查询的数据字段，并且使用所选择字段来定义视觉图形。在一些实现方式中，用户提供的信息被存储为视觉规范228。数据可视化应用222包括数据可视化生成模块226，数据可视化生成模块接收用户输入(例如，视觉规范228)，并且生成对应的视觉图形(也称为

“数据可视化”或“数据viz”)。然后，数据可视化应用222在用户界面100中显示所生成的视觉图形。在一些实现方式中，数据可视化应用222作为独立应用(例如，桌面应用)执行。在一些实现方式中，数据可视化应用222使用由web服务器提供的网页在web浏览器220或另一应用内执行。在一些实现方式中，数据可视化应用230包括用于处理(例如，解释)由计算设备的用户提供的命令的语言处理模块232。在一些实现方式中，命令是自然语言命令(例如，由音频输入设备捕获)。在一些实现方式中，语言处理模块232包括子模块，诸如自动完成模块、语用模块和/或歧义模块。在一些实现方式中，存储器214存储由语言处理模块238确定的度量和/或得分。另外，存储器214可以存储阈值和其他标准，这些阈值和其他标准与由语言处理模块232确定的度量和/或得分进行比较。例如，语言处理模块232可以确定所接收命令的分析字词/短语的相关性度量(下面详细讨论)。然后，语言处理模块232可以将相关性度量与存储在存储器214中的阈值进行比较；

·零个或多个数据库或数据源236(例如，第一数据源236-1和第二数据源236-2)，其由数据可视化应用222使用。在一些实现方式中，数据源被存储为电子表格文件、CSV文件、XML文件或平面文件，或者被存储在关系数据库中；和

·对话模块242，其经由对话接口(例如，下面参考图3、图4和图6A至图11描述的接口)处理用户输入，并且基于问题类型和/或用户偏好生成文本和/或可视化响应。

上面标识的可执行模块、应用或程序集中的每一者可以被存储在先前提及的存储器设备中的一个或多个存储器设备中，并且对应于用于执行上述功能的指令集。上面标识的模块或程序(即，指令集)不需要被实现为单独的软件程序、程序或模块，并且因此这些模块的各种子集可以在各种实现方式中被组合或以其他方式重新布置。在一些实现方式中，存储器214存储上面标识的模块和数据结构的子集。此外，存储器214可以存储上面没有描述的附加模块或数据结构。

尽管图2示出了计算设备200，但是图2更多地旨在作为对可以存在的各种特征的功能描述，而不是作为本文描述的实现方式的结构示意图。在实践中，并且如本领域普通技术人员所认识到的，单独示出的项目可以被组合，并且一些项目可以被分离。

本文描述的技术可以用于设计用于支持涉及认知区域的地理空间探询的NL输入系统。这些技术可以用于处理模糊地理空间查询。例如，地图小部件可以用于自动完成具有用户定义区域的查询。系统还可以支持在分析期间指定和保存认知区域。例如，UI可以用于查看覆盖、精细调整和保存认知区域以供未来参考。系统还提供了用于支持涉及认知区域的更丰富查询的机会。例如，这种系统提供了对空间分辨率、比较和推荐的更多控制。

根据一些实现方式，可以通过认知区域的规范在视觉自动完成小部件中表达对地点的含糊定义。认知区域是人们用来理解(近)地球表面以及对其进行推理和交流的(近似)二维特征。这些区域是空间类别，其通常非任意地对应于真实实体、属性和过程，并且作为知识性或认知动作而被创建。它们是一种有用的区域划分形式，其更容易地对应于一组异构地理空间特征表面的现实或满足特定地理空间探询(例如，“中西部”、“西海岸”和“市区”)的需要。它们可以具有不规则的边界，或者可以与公共行政边界很好地对齐(例如，“西海岸”的一个定义可以涵盖华盛顿、俄勒冈和加利福尼亚的全部，而相同命名区域的另一定义可以仅是沿着海岸线的陆地)。它们也可以基于对数据分布的感知(例如，被分组到任意形状的感兴趣地区中的数据点的感兴趣聚类)而被即时标识。认知区域特别适合于地理空间数据的NL交互，因为它们反映了表征人类思维和交流的分类思维类型。它们还可以通过数据分布的评估来即时形成或重新成形，其中感兴趣区域的边界基于数据分布在用户的初始概念边界周围的方式来扩展或收缩。

尽管位置的概念在地域上是基础的，并且促进对位置和属性的分类，但是在人类对位置的理解与位置的计算机映射之间进行清楚匹配可能是棘手的。将认知区域与具有模糊或不规则定义的其他位置相结合是NL接口中的一个困难且重要的挑战。研究提出了四种不同类型的区域：行政区域、主题区域、功能区域和认知区域。这些地理区域可以具有清晰的、明确定义的和官方的边界(例如，州和国家)，或者含糊的和更个人相关的概念定义(例如，“市区”或“西海岸”)，或者它们可以是两者的组合(例如，街区，其可以具有由城市或县定义的官方边界，但是具有个体的基于个体对位置的个人分类的更模糊界限)。这些区域通常是模糊的和含糊的，个体之间存在相当大的变化—即使是针对相同命名区域(例如，北加利福尼亚和南加利福尼亚的边界)也是如此。另外，处理认知区域的另一挑战是命名区域的精确定义可以基于使用或与其交互的方式而变化。“西海岸”的边界可以具有不同的含义，这取决于所询问的关于区域的问题的性质—即使命名区域(“西海岸”)相同，但是当询问最佳冲浪点时定义的区域和当询问横跨西海岸的农业生产趋势时使用的区域将很可能不同。

示例性地理空间查询和表达空间概念

地图阅读任务通常分为三类—标识关于位置的具体信息、估计关于跨越整个区域的模式的一般信息，或促进多个位置或属性之间的比较。然而，询问关于位置的问题需要系统清楚地定义所讨论的位置—例如，可以被附接至已知位置的所定义的地域或地理名称(例如，术语“加利福尼亚”可以被匹配到具有名称属性“加利福尼亚”的多边形)。在编写空间NL查询时，将用户对位置的名称与绝对地理定义对齐可能是具有挑战性的。这是NL查询的一个经典问题，如在地名消歧研究中所见，以及在理解认知区域划分中更广泛地所见。进一步探讨在NL查询中指定用户位置的挑战，感兴趣的位置甚至可能没有通用名称，并且可能是数据驱动的，例如，“在那边的数据点聚类周围的地区”或“在湖附近伸出的陆地地区”。长期以来，草图绘制一直被认为是表达空间信息的自然方式，并且已经被并入各种系统中，作为对定义位置(例如，Google地图中的图形选择)、空间关系或查询特定地理模式/配置的支持。

示例性自动完成和NL交互

搜索和NL界面通常采用文本或视觉自动完成来帮助用户表述输入查询。自动完成建议要么在用户键入时根据上下文显示，要么在接口将查询重新表述为表示系统语言的对应规范表达时显示。这些支架在引导用户在数据探索期间键入句法上完整且分析上有效的查询方面是有用的。然而，这些系统不提供对底层数据的任何预览，导致用户必须确定具有分析性兴趣的问题，同时以NL形式表述这些问题。一些图形用户界面控件中的香味(Scented)小部件可以支持数据分析任务。在这种系统中，增强的传统小部件(诸如滑块、组合框和单选按钮)具有嵌入式可视化以促进信息空间中的意义构建。

在一些实现方式中，具有数据预览的自动完成的文本和视觉变体两者都在视觉分析任务的NL交互的上下文内为用户提供引导。除了数据的数值、时间和空间预览之外，还存在特定于支持用户的空间NL查询需求的更全面范围的附加技术和语言挑战。例如，存在一个经典的地理信息获取问题，其中用户查询中感兴趣的位置必须是可标识的，以便它们可以被映射到数据库中所定义的位置。虽然一些传统系统可以增强用户更容易和成功地生成关于特定命名位置的NL空间查询的能力，但是仍然有机会更好地支持人们通常概念化位置的含糊方式。一些实现方式扩展了数据驱动支架的概念，并且通过认知区域的规范支持可以在视觉自动完成小部件中表达的针对地点的含糊定义。

一些实现方式使用基于web的架构，其中由ANTLR解析器利用上下文无关语法处理输入NL查询。解析器通过数据管理器访问数据集以处理数据查询请求。在执行时，在一些实现方式中，查询更新D3Leaflet地图。Leaflet是用于在网站上嵌入地图的库。D3和Leaflet使用不同的API来渲染形状和投影点。D3地图可以用于将项目分组在一起，从而创建可以使用函数(如阵列)访问的散列阵列。系统在用户正在键入时轮询查询，并且在查询部分完整时触发语法解析树错误。基于底层语法规则，向用户示出基于文本和小部件的自动完成建议以帮助解决部分查询。为了在NL交互的上下文中处理含糊的认知区域，一些实现方式扩展地图小部件以帮助用户在包含地点相关令牌(诸如“附近”、“中”和“周围”)的地理空间查询中标识他们感兴趣的区域。系统还支持查询中的数值和时间描述符，诸如“大”、“小”和“最近”。地图小部件提供数据预览，并且使得用户能够通过使用矩形选择(其示例在下面描述的图6C中示出)或者自由绘制选择(示例在下面参考图8示出并描述)来选择区域。

下面示出的示例性算法确定用户在地图小部件中所选择的认知区域的覆盖。

算法1确定选择的覆盖

输入：包含用户选择的多边形对象

输出：地域列表及其归一化得分

qt是存储来自数据集的数据点的四叉树数据结构

1：访问qt以获取所选择地理数据点以及用户所选择区域内的对应行政地域

2：获取所选地理地区以及用户所选择区域内的对应行政地域单元(例如，州)

3：从所选择地理数据点和所选择地理地区获取行政地域的聚合4：对于聚合列表中的每个行政地域执行以下操作

5：给定所选择地理数据点和重叠地理地区的比例来计算归一化得分(等式1)

6：如果得分＜所选择阈值，则

7：从聚合列表中移除行政地域

8：结束如果

9：结束对于

10：按降序对行政地域聚合列表的得分进行排序

用于计算归一化得分的示例性方法

当在地图小部件上进行选择时，一些实现方式使用所选择数据点和重叠地理地区的比例来确定选择特定地域的置信度水平。一些实现方式使用州，因为作为单元，县级地域太精细，而国家级地域太粗略。为了针对空间查询进行优化，一些实现方式使用四叉树——一种促进搜索操作的紧凑数据结构。一些实现方式对四叉树执行搜索以标识所选择点。对于每个州，系统计算所选择点与数据点总数的比例。一些实现方式还计算州与用户定义区域相交的地理地区的比例。

系统的一些实现方式如下计算比例值。一些实现方式使用所选择点比例和重叠地理地区比例值来确定置信度得分。一些实现方式使用启发式方法并且可以使用各种单独的权重来计算用户选择的覆盖。在实践中，分别向重叠地理地区和数据点分配权重0.65和0.35提供了合理的结果，以反映有意包括具体地域的可能性。可以使用0.2和更高的阈值来选择用户意图包括在其选择中的地理地区。可以使用下面示出的示例性等式(1)来计算置信度得分。在等式(1)中，P_地区是所选择点比例的地区，P_点是重叠地理地区比例值。

置信度得分＝P_地区*0.65+P_点*0.35 (1)

示例性用户界面

图3示出了根据一些实现方式的示例性数据可视化界面300。如上所述，技术和示例性界面可以用于查询无法以自然语言表示的模糊认知区域。界面300包括用于键入查询的输入字段(a)、用于用户选择的地图小部件(b)、主地图视图(c)、和显示目标认知区域的结果的面板(d)。在左侧示出了示例性维度302和量度304。当用户选择地图小部件(b)中的区域以完成文本查询(例如，“大地震，地点为”)时，面板(d)使用梯度调色板显示从最高置信度得分进行排序的各个州。用户可以选择移除他们不想与选择相关联以及在所提供的文本字段中给予区域名称的地点。命名区域由系统保存并且可以在未来查询中被引用(例如，“在中西部的最近几次有哪些？”)。主地图(c)被更新以示出来自查询的结果。一些实现方式还支持两个用户标识的认知区域之间的比较(例如，“比较西部和东部”)。系统显示针对这些区域中的每个区域中的最小值、最大值和平均值的统计。根据一些实现方式，下面参考图3至图11示出和描述各种系统行为和查询示例的示例。

自动完成是一种用于在用户键入时向用户显示原位建议的有用UI机制。传统的自然语言界面提供自动完成，但是聚焦于句法查询结论，而不提供关于底层数据中的内容的任何引导。

图4示出了根据一些实现方式的支持视觉自动完成的示例性用户界面400，该示例性用户界面用于在分析性工作流期间提供数据预览。

图5是根据一些实现方式的示例性系统500的示意图。系统实现用于解析查询的前瞻解析器。自动完成检测模块在用户正在键入时保持查询，并且当查询不完整时触发自动完成事件。在数据管理器的帮助下，使用数据频率信息来生成聚合数据预览。在界面中显示自动完成地图小部件。用户可以与小部件交互并指定感兴趣的模糊区域。然后，界面被更新以示出落入用户选择的区域内的结果和州。

在一些实现方式中，系统500被实现为上面参考图2描述的设备200的存储器206中的一个或多个模块。根据一些实现方式，系统500采用基于web的客户端-服务器架构。在一些实现方式中，由用户502输入的输入查询504(有时称为不完整自然语言命令、不完整查询506或查询)由解析器508(例如，ANTLR解析器)使用语法510(例如，上下文无关语法)来处理，该语法包含预定义规则以及基于来自底层数据集的数据字段的数据值而动态添加的规则。在一些实现方式中，解析器508通过数据管理器524访问底层数据集(例如，来自数据库528的数据)，数据管理器具有访问功能526以处理数据请求。在一些实现方式中，自动完成检测模块512在用户正在键入时轮询查询506，并且触发(514)部分输入514(例如，当查询部分完整时触发语法解析树错误)。在一些实现方式中，部分输入514被传递到自动完成生成器516，自动完成生成器对部分查询的句法结构以及在查询完整的情况下将满足的相关语法规则进行自省。生成器516在数据管理器524的帮助下计算(518)数据预览，以显示(520)小部件(例如，具有聚合数据视图的地图小部件522)，以将部分查询解决为完整查询。在一些实现方式中，在数据管理器524的帮助下，生成器516计算(518)将在自动完成建议中显示(520)的必要数据预览信息。在一些实现方式中，然后，自动完成建议在客户端的用户界面中被渲染和显示(例如，可视化536)。用户利用这些自动完成建议执行的任何交互被捕获(532)并被处理，以用于在数据管理器524的帮助下确定(530)认知区域的覆盖。在一些实现方式中，系统基于认知区域的所确定覆盖来更新(534)可视化结果536。

在一些实现方式中，系统500采用从左到右的LL(*)解析器，从而执行输入搜索查询的最左推导。LL(*)解析器用于生成自动完成建议，因为这类解析器可以从传统的固定k≥1个令牌前瞻适度地加速到任意前瞻，并且能够在无法构建合适的解析路径的情况下进行回溯。在一些实现方式中，对解析器508的输入是利用具有对应前瞻动作的谓词补充的语法，以触发将事件发送到建议模块。在一些实现方式中，每个语法规则封装分析性意图，类似于其他自然语言视觉分析语法系统。规则由静态(即，在语法中预定义的)或动态(即，从数据库中的数据字段的数据值实时计算的)的词典构成。在语言学中，词典是具有已知语义含义的字词和短语的词汇表。在一些实现方式中，解析器508将输入语法转换为等效的补充转移网络(ATN)，ATN是一种用于解析相对复杂的自然语言查询的有效的语法图表示。在一些实现方式中，使用流分析来计算状态模型，流分析跟踪通过从顶层节点可到达的所有节点的ATN图表示。给定语法G＝(N,T,P,S,Π,μ)，ATN状态机A_G＝(Q,Σ,Λ,E,F)具有五个元素：(i)Q是状态的集合，(ii)Σ是令牌N U T UΠUμ的集合，(iii)Λ是转换关系映射Q×(ΣUε)→Q，(iv)E＝p_A，其中A∈N是进入状态的集合，以及(v)F＝p'_A，其中A∈N是最终状态的集合。

根据一些实现方式，根据语法为每个非终结词典元素计算A_G，从而为每个Σ创建状态模型。非终结符号形成解析的句法结构，并由终结符号(即，解析树中的叶节点)替换。非终结边p-+p'是基于Λ的函数调用，其将返回状态p'推到解析状态堆叠上，因此在到达状态流的停止状态之后，解析状态堆叠可以从p'继续。在一些实现方式中，解析器模拟ATN中的动作以预测Q中的下一令牌并计算前瞻解析树。当序列未根据针对当前非终结的对应语法产生规则解决时，在ATN中出现预测错误。LL(*)预测状态模型报告具体令牌处的错误，并向前扫描以确定是否存在可以解决错误的任何非终结。根据一些实现方式，为了触发自动完成，标识将生成有效解析树的最短前瞻序列。在一些实现方式中，自动完成检测算法被一般化用于静态和动态词典两者。

图6A示出了根据一些实现方式的示出美国地震的地图602的示例性用户界面600。在图6B中，用户以键入“向我展示地震，地点为”602开始。作为响应，地图小部件604表现为自动完成部分查询。地图小部件604内的六边形空间箱606示出了聚合数据分布。在图6C中，用户然后通过矩形选择608继续选择感兴趣的地区。在图6D中，在用户已完成选择之后，系统在右侧呈现所包括的区域的概述610。在图6E中，该概述示出了关于区域中的多少部分包含在矩形选择中的信息612。在图6F中，用户从所选择区域移除一些州(相对于图6E)，并将选择命名为“美国中部”614。在图6G中，该命名认知区域被存储616，以供未来在用户会话中进行参考。

在图7A中，用户键入“大地震，地点为”700，并使用自由绘制选择来选择西海岸上的点的区域702，并点击回车。在图7B中，系统示出了区域中的地震(如文本704和地图706所指示的)，并且显示针对大地震的滑块708(还示出了震级为5的初始选择)。在图7C中，用户调整滑块以选择震级4及更高710，并且地图706上的点被相应调整。

在图8A中，用户随后探索“在上西北选择的区域中的小地震”(通过自由绘制选择800)。根据一些实现方式，系统相应更新地图802(比较地图802和更新的地图804)，如图8B所示。

在图9A中，用户然后继续探索美国东部的“最大地震”(如用户输入900所指示的)。在图9B中，用户将区域命名为“东部”902并开始键入“最近地”904，并且系统基于地图的状态和用户选择示出用于选择“地震”的选项906。在图9C中，用户将区域命名为“西海岸”908，并选择存储区域(例如，通过点击示能表示910)，使得命名区域可以在以后再次使用。

在图10中，根据一些实现方式，用户选择查看特定区域的数据(例如，“蒙大拿的小地震”1000)，并且系统更新地图912。

如图11所示，根据一些实现方式，用户还可以比较用户先前存储的两个认知区域(例如，“比较美国中部和东部”，区域1100和1102)。

示例性实验结果

进行用户研究以评估根据上述技术的系统。研究具有以下目标：(1)收集关于人们如何在视觉分析中表达和查询认知区域的定性反馈；和(2)标识系统限制以及可以如何使用地点语义来进行进一步数据探索的机会。研究探索了人们探究数据的方式以及他们对系统行为作出响应的方式。因为研究的目标是获得对系统行为的定性洞察，所以要求参与者对实验者出声思考。

研究从当地城镇邮寄名单中招募了12名志愿者(五名男性，七名女性，年龄在36岁至65岁)。参与者具有各种背景——用户研究员、销售顾问、工程领导、产品经理、投资者、商业房地产经纪人、项目经理和营销经理。基于参与者的自我报告，他们的英语都很流利，并且经常使用某种类型的NL搜索界面，诸如Google。七名参与者经常使用可视化工具，其余参与者则熟练程度有限。

此次评估使用了美国大约10,000次地震的数据集，具有标准化的结构和属性。虽然此次评估使用地震，但是系统将适用于任何点数据集。研究开始于对如何使用系统的简短介绍。参与者被指示以感觉最自然的任何方式来表达他们的查询，并且在系统出现意外情况时进行告知。尽管示例性系统可以处理其他分析性查询，但是参与者被要求特别聚焦于地理空间查询，以更好地了解他们将如何基于地点来探索数据。在整个会话期间，与参与者讨论了对系统行为的反应，并以访谈结束。每个会话持续大约30分钟。使用涉及定性和定量分析的混合方式方法进行分析。定量分析用作定性研究结果的补充。

总体而言，参与者对系统持积极态度，并指出了许多益处。鉴于研究使用了美国地震数据集，大多数问题都集中在各个地理地区发生的地震的强度和新近程度。一些参与者对系统理解其模糊地理空间查询的能力印象深刻。参与者赞赏了用于在其分析中指定和保存认知区域的功能。参与者键入的查询总数在8至20的范围内(μ＝10.4)。使用地图小部件来选择地理区域的次数在5至11的范围内(μ＝7.4)。在参与者与地图小部件交互时的大多数时间中，他们命名并保存认知区域；次数在6至8的范围内(μ＝6.8)。参与者在其用户会话中的后续分析性问题中再次使用这些所保存的认知区域4次至8次(μ＝5.9)。参与者命名的最常见认知区域是“西部”(47％)、“西北”(38％)、“南部”(12％)和“中西部”(3％)。最常见的分析性查询与以下项相关：“大”(42％的交互)、“小”(31％)和“比较”(25％)地震，其余的用于“最近”。所有参与者与文本响应中的滑块和下拉菜单交互以理解系统行为。

一些实现方式提供了对空间分辨率的控制。例如，地图小部件中的六边形箱图(地图中表示为六边形的区域)基于地图缩放进行调整，以用于提供对空间分辨率的一些用户控制。一些实现方式提供用于离散化数据的对地图小部件中的六边形箱图的空间分辨率的控制。一些实现方式提供更多的数据驱动的控制，从而将用户分析的规模与数据的规模匹配，或者可能包括其他空间聚合选项，诸如热图。

一些实现方式提供认知区域特征之间的比较。例如，一些系统通过提供统计(诸如均值、平均值、最小值和最大值)来支持认知区域之间的定量比较。然而，参与者期望特征之间的更丰富比较，并期望能够指定他们感兴趣的特征。涉及认知区域的分析性任务中的许多任务往往涉及复杂性质的比较。一些实现方式为用户提供支持以利用交互技术来指定感兴趣的性质，并且为视觉分析工具提供支持以提供对这种比较的更丰富概述。

一些实现方式基于认知区域性质来提供推荐。可视化推荐系统是高度数据驱动的，并且依赖于用户的过去行为和偏好。支持对认知区域的分析性探询的界面提供了用于推荐可能具有类似数据特性的其他认知区域的激励场景。例如，这种推荐对于发展中国家发展药品分配和治疗物流是有用的，从而使得用户能够查看病例、人口和治疗中心数量的趋势。一些实现方式基于用户已经聚焦的内容来推荐新的认知区域以供探究。

用于数据集的视觉分析的示例性方法

图12A至图12J提供了根据一些实现方式的使用(1202)自然语言进行数据集的视觉分析的方法1200的流程图。方法在具有一个或多个处理器(例如，处理器202)和存储器(例如，存储器206)的计算系统(例如，计算设备200)处执行(1204)，存储器存储(1206)被配置用于由一个或多个处理器执行的一个或多个程序。方法包括接收(1208)对数据源(例如，数据源240-1)的用户选择。方法还包括呈现(1210)用于分析所选择数据源中的数据的自然语言界面。

方法还包括：响应于接收到(1212)用于指定涉及数据源的不完整自然语言命令的第一用户输入，呈现(1214)地图小部件，以用于从数据源选择地理空间数据点。接下来参考图12B，在一些实现方式中，方法还包括通过解析第一用户输入以检查语法解析树错误来确定(1218)第一用户输入是否指定不完整自然语言命令。接下来参考图12C，在一些实现方式中，方法还包括通过解析第一用户输入以标识地点相关令牌来确定(1220)第一用户输入是否指定不完整自然语言命令。接下来参考图12E，在一些实现方式中，地图小部件包括(1224)对来自数据源的数据的聚合预览。在一些实现方式中，聚合预览包括(1226)将地图的区域显示为六边形的基于六边形箱图的预览。在一些实现方式中，地图小部件还包括(1228)用于附加空间上下文的详细基本地图。

返回参考图12A，方法还包括：响应于接收到(1212)用于指定涉及数据源的不完整自然语言命令的第一用户输入，响应于接收到用于选择地图小部件中的区域的第二用户输入，根据第一用户输入和第二用户输入生成和显示(1216)地图数据可视化。接下来参考图12C，在一些实现方式中，第二用户输入是(1222)矩形或自由绘制选择。

接下来参考图12F，在一些实现方式中，方法还包括生成和显示(1230)对所选择区域中的数据点的语言描述。

接下来参考图12G，在一些实现方式中，方法还包括继续在地图小部件中显示(1232)所选择区域，其中地图小部件被配置为根据对所选择区域的用户修改而更新数据可视化。

接下来参考图12H，在一些实现方式中，方法还包括接收和存储(1234)所选择区域的空间定义以供未来查询使用。在一些实现方式中，方法还包括：接收(1236)涉及数据源的空间查询；以及获取(1238)空间定义以生成和显示对空间查询的响应。

接下来参考图12I，在一些实现方式中，方法还包括：生成和显示(1240)所选择区域的覆盖度量，覆盖度量帮助用户使用通常命名的行政地域以及数据特性估计和细化空间查询。在一些实现方式中，覆盖度量表示(1242)选择基于所选择数据点和重叠地理地区的比例来计算的特定地域的置信度水平。在一些实现方式中，地理地区包括(1244)选自由以下项构成的组的一个或多个区域：县、州和国家。在一些实现方式中，方法还包括基于覆盖度量对各个地理地区进行排序和显示(1246)。在一些实现方式中，根据覆盖度量使用梯度调色板来显示(1248)地理地区。

接下来参考图12J，在一些实现方式中，方法还包括生成和显示(1250)两个用户标识的认知区域之间的比较。在一些实现方式中，比较包括(1252)针对这些区域中的每个区域中的最小值、最大值和平均值的统计。

这样，本文描述的技术可以用于提供图形自动完成以支持查询无法容易地以NL表示的感兴趣的认知区域。根据一些实现方式，覆盖度量用于通过直接操纵来确定用户感兴趣的区域。系统允许持久保存这些认知区域的定义，其中用户可以在未来查询中在界面中标记、细化和并入它们。对系统的评估指示参与者发现系统是直观的，并赞赏在其NL探询中指定含糊地理区域的能力。实验结果表明有机会在更丰富的地理空间数据探索中使用认知区域。

在本文中用于本发明的描述的术语仅是出于描述特定实现方式的目的，而并非旨在限制本发明。如在本发明的描述和所附权利要求中所使用的，单数形式的“一种”、“一个”和“该”旨在同样包括复数形式，除非上下文另有明确指示。还应当理解，如本文所用的术语“和/或”指代并涵盖相关联的所列项目中的一个或多个项目的任何及所有可能组合。还应当理解，当在本说明书中使用时，术语“包括”和/或“包含”指定所陈述的特征、步骤、操作、元素和/或部件的存在，但并不排除一个或多个其他特征、步骤、操作、元素、部件和/或其组的存在或添加。

出于解释的目的，已经参考具体实现方式描述了前述描述。然而，以上例示性讨论并非旨在作为详尽的或将本发明限于所公开的精确形式。鉴于以上教导内容，许多修改和变化是可能的。选择和描述这些实现方式是为了最好地解释本发明的原理及其实际应用，从而使得本领域技术人员能够最好地利用本发明和具有适于所设想的特定用途的各种修改的各种实现方式。

Claims

1.一种数据集的视觉分析的方法，包括：

在具有一个或多个处理器和存储被配置用于由所述一个或多个处理器执行的一个或多个程序的存储器的计算系统处：

接收对数据源的用户选择；

呈现用于分析所选择数据源中的数据的自然语言界面；和

响应于接收到用于指定涉及所述数据源的不完整自然语言命令的第一用户输入：

呈现地图小部件，用于从所述数据源选择地理空间数据点；和

响应于接收到用于选择所述地图小部件中的区域的第二用户输入：

根据所述第一用户输入和所述第二用户输入，生成和显示地图数据可视化。

2.根据权利要求1所述的方法，还包括：

通过解析所述第一用户输入以检查语法解析树错误，确定所述第一用户输入是否指定了不完整自然语言命令。

3.根据权利要求1所述的方法，还包括：

通过解析所述第一用户输入以标识地点相关令牌，确定所述第一用户输入是否指定了不完整自然语言命令。

4.根据权利要求1所述的方法，其中所述第二用户输入是矩形或自由绘制选择。

5.根据权利要求1所述的方法，其中所述地图小部件包括对来自所述数据源的数据的聚合预览。

6.根据权利要求5所述的方法，其中所述聚合预览将地图的区域显示为六边形。

7.根据权利要求5所述的方法，其中所述地图小部件还包括用于附加空间上下文的详细基本地图。

8.根据权利要求1所述的方法，还包括：

生成和显示对所选择区域中的数据点的语言描述。

9.根据权利要求1所述的方法，还包括：

继续在所述地图小部件中显示所选择区域，其中所述地图小部件被配置为根据对所选择区域的用户修改而更新所述数据可视化。

10.根据权利要求1所述的方法，还包括：

接收和存储所选择区域的空间定义，以供未来查询使用。

11.根据权利要求10所述的方法，还包括：

接收涉及所述数据源的空间查询；和

获取所述空间定义，以生成和显示对所述空间查询的响应。

12.根据权利要求1所述的方法，还包括：

生成和显示所选择区域的覆盖度量，所述覆盖度量帮助用户使用通常命名的行政地域以及数据特性估计和细化空间查询。

13.根据权利要求12所述的方法，其中所述覆盖度量表示选择特定地域的置信度水平，其是基于所选择数据点和重叠地理地区的比例计算的。

14.根据权利要求13所述的方法，其中所述地理地区包括选自由以下项构成的组的一个或多个区域：县、州和国家。

15.根据权利要求13所述的方法，还包括：

基于所述覆盖度量，对各个地理地区进行排序和显示。

16.根据权利要求15所述的方法，其中根据所述覆盖度量，使用梯度调色板，显示所述地理地区。

17.根据权利要求1所述的方法，还包括：

生成和显示两个用户标识的认知区域之间的比较。

18.根据权利要求17所述的方法，其中所述比较包括针对所述区域中的每个区域中的最小值、最大值和平均值的统计。

19.一种用于数据集的视觉分析的计算机系统，包括：

一个或多个处理器；和

存储器；

其中所述存储器存储被配置用于由所述一个或多个处理器执行的一个或多个程序，并且所述一个或多个程序包括用于以下的指令：

接收对数据源的用户选择；

呈现用于分析所选择数据源中的数据的自然语言界面；和

20.一种非暂态计算机可读存储介质，其存储被配置用于由具有显示器、一个或多个处理器和存储器的计算机系统执行的一个或多个程序，所述一个或多个程序包括用于以下的指令：

接收对数据源的用户选择；

呈现用于分析所选择数据源中的数据的自然语言界面；和