CN116097246A - 利用自动完成作为支持可视化分析的数据发现支架 - Google Patents

利用自动完成作为支持可视化分析的数据发现支架 Download PDF

Info

Publication number
CN116097246A
CN116097246A CN202180048379.1A CN202180048379A CN116097246A CN 116097246 A CN116097246 A CN 116097246A CN 202180048379 A CN202180048379 A CN 202180048379A CN 116097246 A CN116097246 A CN 116097246A
Authority
CN
China
Prior art keywords
data
auto
natural language
completion
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180048379.1A
Other languages
English (en)
Inventor
维迪亚·拉加万·塞特勒
Md·埃纳姆·霍克·普林斯
金大贤
章玄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tapp Software Co ltd
Original Assignee
Tapp Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tapp Software Co ltd filed Critical Tapp Software Co ltd
Publication of CN116097246A publication Critical patent/CN116097246A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24522Translation of natural language queries to structured queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种方法利用数据发现来支持数据集的可视化分析。用户选择数据源,并且该方法呈现用于分析数据源的自然语言界面。用户指定指向数据源的不完整自然语言命令,并且该方法将不完整自然语言命令中的单词与数据源中的数据字段相关联。该方法确定数据字段的数据类型和数据字段的数据值的范围。根据数据类型和数据值的范围,该方法为不完整自然语言命令呈现一个或更多个自动完成选项。每个选项包括相应的文本和相应对应的视觉图形。用户选择自动完成选项之一,并且该方法形成完整自然语言命令。然后,该方法根据完整自然语言命令显示数据可视化。

Description

利用自动完成作为支持可视化分析的数据发现支架
相关申请
本申请是2020年9月2日提交的标题为“Utilizing Autocompletion as aDataDiscovery Scaffold for Supporting Visual Analysis”的美国专利申请17/010,770的延续申请,该美国专利申请17/010,770要求2020年5月6日提交的标题为“UtilizingAutocompletion as a Data Discovery Scaffold for Supporting Visual Analysis”的美国临时专利申请63/021,066的优先权,其中每个专利申请通过引用以其整体并入本文。
本申请涉及2020年3月18日提交的标题为“Incorporating Data Visualizationsinto Database Conversational Interfaces”的美国临时专利申请62/991,342,该专利申请通过引用以其整体并入本文。
本申请涉及2017年11月6日提交的标题为“Systems and Methods of UsingNatural Language Processing for Visual Analysis of a Data Set”的美国专利申请15/804,991,该专利申请通过引用以其整体并入本文。
本申请涉及2018年12月27日提交的标题为“Analyzing Underspecified NaturalLanguage Utterances in a Data Visualization User Interface”的美国专利申请16/234,470,该专利申请通过引用以其整体并入本文。
本申请还涉及2018年12月14日提交的标题为“Data Preparation UserInterface with Coordinated Pivots”的美国专利申请16/221,413,该专利申请通过引用以其整体并入本文。
本申请还涉及2018年12月30日提交的标题为“Generating Data VisualizationsAccording to an Object Model of Selected Data Sources”的美国专利申请16/236,611,该专利申请通过引用以其整体并入本文。
本申请还涉及2018年12月30日提交的标题为“Generating Data VisualizationsAccording to an Object Model of Selected Data Sources”的美国专利申请16/236,612,该专利申请通过引用以其整体并入本文。
本申请还涉及2019年11月10日提交的标题为“Data Preparation UsingSemantic Roles”的美国专利申请16/679,234,该专利申请通过引用以其整体并入本文。
技术领域
所公开的实施方式总体上涉及自然语言处理,并且更具体地涉及用于基于在命令中识别的数据字段的数据值来提供相关自动完成建议的系统、方法和用户界面。
背景
自然语言交互已经发展成为一种有用的模式,以帮助用户在可视化分析期间探索他们的数据和与该数据交互。然而,几乎没有做什么工作来探索自动完成如何可以在帮助用户制定分析问题的同时帮助数据发现。传统的界面侧重于句法(syntactic)查询的完成,而没有关于底层(underlying)数据中的内容的任何指导。支持自动完成的当前可用系统对数据发现没有帮助。此外,传统系统没有考虑用户对支持自然语言界面中的可视化分析的自动完成的偏好。
概述
为了解决这些问题,一些实施方式使用设计探针(有时称为“Sneak Pique系统”)来探索自动完成如何可以在用户的分析工作流期间更好地支持用户。
名为“Sneak Pique”的新颖的系统说明了自动完成对可视化分析的有用性。三个机械土耳其人(Mechanical Turk)研究评估了用户对各种基于文本和可视化小部件(widget)的自动完成设计变体的偏好,以帮助部分搜索查询。调查结果表明,用户发现数据预览在建议中很有用。小部件优先用于预览时间数据、地理空间数据和数值数据,而文本自动完成优先用于分类和分层数据。对系统进行了探索性分析,实现了优选的自动完成变体的特定子集。关于这些自动完成建议的功效的见解促进了支持可视化分析的自然语言界面的设计。
根据一些实施方式,一种方法利用数据发现来支持数据集的可视化分析。该方法在具有一个或更多个处理器和存储器的计算系统处执行,该存储器储存被配置为由一个或更多个处理器执行的一个或更多个程序。用户选择数据源,并且系统呈现用于分析所选择的数据源中的数据的自然语言界面。用户指定指向数据源的不完整自然语言命令,并且系统将不完整自然语言命令中的一个或更多个单词与所选择的数据源中的数据字段相关联。系统还确定数据字段的数据类型,并确定数据源中关于数据字段的数据值的范围。根据数据类型和数据值的范围,系统为不完整自然语言命令呈现一个或更多个自动完成选项。每个选项包括相应的文本和相应对应的视觉图形。当用户选择一个或更多个自动完成选项中的选项时,系统形成完整的自然语言命令并根据完整的自然语言命令显示数据可视化。
在一些实施方式中,将不完整自然语言命令中的一个或更多个单词与所选择的数据源中的数据字段相关联包括:(i)基于来自位于所选择的数据源下的数据集的属性值生成语法规则;(ii)通过使用语法规则解析不完整自然语言命令并检测语法解析树错误来确定不完整自然语言命令中的一个或更多个单词是否包括部分完整的查询;以及(iii)根据不完整自然语言命令包括部分完整的查询的确定:(a)计算部分完整的查询的句法结构以及在部分完整的查询完成的情况下将满足的相关语法规则;以及(b)基于相关语法规则从所选择的数据源中选择数据字段。
在一些实施方式中,关联不完整自然语言命令中的一个或更多个单词是基于分析针对不同数据类型(包括分类数据、数字数据、地理空间数据、时间数据及其组合)的文本自动完成或小部件自动完成的用户偏好。
在一些实施方式中,为不完整自然命令呈现一个或更多个自动完成选项包括:根据数据类型是分类类型的确定,显示示出针对分类数据字段的建议的文本列表。根据数据频率对建议进行数值排序,并且文本列表包括示出建议的相应数据频率的数据预览。
在一些实施方式中,为不完整自然命令呈现一个或更多个自动完成选项包括:根据数据类型是数字类型的确定,显示直方图滑块小部件,该直方图滑块小部件示出来自数据源的数值数据字段的数据频率的直方图。
在一些实施方式中,为不完整自然命令呈现一个或更多个自动完成选项包括:根据数据类型是地理空间类型的确定,显示示出数据字段的位置值的数据预览的地图图表小部件,将数字范围示出为可视化编码。
在一些实施方式中,为不完整自然命令呈现一个或更多个自动完成选项包括:根据数据类型是时间类型的确定,显示(i)示出按时间顺序排序的第一数据字段的时间数据的文本列表,(ii)示出第一时间数据字段的时间分层(hierarchy)的日历小部件,或者(iii)示出第二时间数据字段的数据频率的直方图的直方图滑块小部件。
在一些实施方式中,为不完整自然命令呈现一个或更多个自动完成选项包括:根据数据类型既是地理空间类型又是时间类型的确定,显示(i)具有分层数据的语义分组的文本列表,或者(ii)地图和日历小部件的组合。
在一些实施方式中,为不完整自然命令呈现一个或更多个自动完成选项包括显示示出数据预览的一个或更多个小部件。在一些实施方式中,基于从解析不完整自然语言命令中获得的词元(token)的语义来触发一个或更多个小部件。
在一些实施方式中,该方法还包括:(i)接收第二用户输入以指定指向数据源的第二不完整自然语言命令;以及(ii)基于第二用户输入和在数据可视化中使用的过滤器来计算和显示对数据预览的更新。
在一些实施方式中,该方法还包括:(i)在接收第二用户输入之前,储存数据可视化的初始状态;(ii)接收用于指定指向数据源的第三不完整自然语言命令的第三用户输入;以及(iii)根据第三不完整自然语言命令对应于重置数据可视化的用户请求的确定,基于数据可视化的初始状态来恢复数据可视化。
在一些实施方式中,该方法还包括:基于相关语法规则显示将部分完整的查询解析为完整自然语言命令所需要的一个或更多个自动完成建议。
在一些实施方式中,为不完整自然命令呈现一个或更多个自动完成选项包括:(i)检测用于为数据字段选择相应的文本而不是相应对应的可视化图形的用户输入;以及(ii)响应于检测到用于选择相应文本的用户输入,从显示相应对应的可视化图形切换到显示相应的文本,其中相应的文本提供一个或更多个文本自动完成选项。
在一些实施方式中,为不完整自然命令呈现一个或更多个自动完成选项包括:根据数据类型对应于分层数据的确定,提供用于选择分层值的一个或更多个文本自动完成选项。
在一些实施方式中,使用从左到右(LL(*))解析器来执行对不完整自然语言命令的解析,该解析器执行不完整自然语言命令的最左派生,并且在不能构建合适的解析路径的情况下回溯(backtrack)。
在一些实施方式中,语法规则对应于上下文无关语法,该上下文无关语法包括预定义的规则以及基于来自底层数据集的数据字段的数据值动态生成的规则。
在一些实施方式中,该方法还包括:(i)在可视化分析期间检测一系列任务中用户偏好的变化;以及(ii)进一步基于使自动完成工作流适应于不同数据类型的变化来关联不完整自然语言命令中的一个或更多个单词。
根据一些实施方式,用于生成数据可视化的系统包括一个或更多个处理器、存储器、和存储在存储器中的一个或更多个程序。程序被配置为由一个或更多个处理器执行。程序包括用于执行本文所述的方法中任一项的指令。
根据一些实施方式,非暂时性计算机可读存储介质储存被配置为由具有一个或更多个处理器和存储器的计算机系统执行的一个或更多个程序。一个或更多个程序包括用于执行本文所述的方法中任一项的指令。
因此,公开了使用户能够分析、准备和整理数据的方法、系统和图形用户界面。
附图简述
为了对前面提到的系统、方法、和图形用户界面以及提供数据可视化分析和数据准备的附加系统、方法、和图形用户界面的更好理解,应结合随附的附图来参考下面的实施方式的描述,其中相似的参考数字在全部附图中是指对应的部分。
图1示出了根据一些实施方式的用于交互式数据分析的示例图形用户界面。
图2是根据一些实施方式的计算设备的框图。
图3A和图3B示出了根据一些实施方式的当用户探索数据集时生成的自动完成建议的示例。
图4A是根据一些实施方式的使用自动完成作为数据发现支架(data discoveryscaffold)的系统的示意图。
图4B示出了根据一些实施方式的示例,其中解析器计算前瞻(look-ahead)解析树并预测触发自动完成的词元。
图5A示出了根据一些实施方式的由图4A所示出的系统探索的设计空间。
图5B示出了根据一些实施方式的数据预览计算的示例。
图6A示出了根据一些实施方式的使用图4A所示出的系统执行以识别自动完成变体的子集的各种机械土耳其人(mechanical turk)实验。
图6B示出了根据一些实施方式的在系统确定用户偏好之后图5A所示出的设计空间。
图7A-图7W示出了根据一些实施方式的对示例总结性表格的更新。
图8A和图8B示出了根据一些实施方式的用于选择位置分层值的文本自动完成。
图9A-图9L提供了根据一些实施方式的利用数据发现来支持数据集的可视化分析的方法的流程图。
现在将参考其示例在附图中被示出的实施方式。在下面的描述中,阐述了许多具体细节以便提供对本发明的透彻理解。然而,对于本领域中的普通技术人员将明显的是本发明可以在不需要这些特定细节的情况下被实践。
实施方式的描述
图1示出了根据一些实施方式的用于交互式数据分析的示例图形用户界面100。根据一些实施方式,用户界面100包括数据选项卡114和分析选项卡116。当数据选项卡114被选择时,用户界面100显示也被称为数据窗格的模式(schema)信息区110。模式信息区110提供可以被选择并用于建立数据可视化的所命名的数据元素(例如,字段名称)。在一些实施方式中,字段名称的列表被分成一组维度(例如分类数据)和一组度量(例如数字量(numeric quantity))。一些实施方式还包括参数的列表。当分析选项卡116被选择时,用户界面显示分析功能的列表而不是数据元素的列表(未示出)。
图形用户界面100还包括数据可视化区112。数据可视化区112包括多个工具架区,例如列工具架区120和行工具架区122。这些也被称为列工具架120和行工具架122。如本文所示,数据可视化区112还具有用于显示视觉图形(在本文中也被称为数据可视化)的大的空间。因为数据元素还没有被选择,所以该空间最初没有视觉图形。在一些实施方式中,数据可视化区112具有被称为表格(sheet)的多个层。在一些实施方式中,数据可视化区112包括用于数据可视化过滤器的区126。
在一些实施方式中,图形用户界面100还包括用于接收自然语言命令的自然语言输入框124(也被称为命令框)。用户可以与命令框交互以提供命令。例如,用户可以通过在框124中键入命令来提供自然语言命令。此外,用户可以通过对着麦克风(或音频输入设备)说话以提供命令,从而间接地与命令框交互。在一些实施方式中,数据元素最初与列工具架120和行工具架122相关联(例如,使用从模式信息区110到列工具架120和/或行工具架122的拖放操作)。在最初关联之后,用户可以使用(例如,自然语言输入框124中的)自然语言命令来进一步探索所显示的数据可视化。在一些实例中,用户使用自然语言输入框124来创建最初关联,这导致一个或更多个数据元素被放置在列工具架120上和行工具架122上。例如,用户可以提供用于查看数据元素X和数据元素Y之间的关系的命令。响应于接收到该命令,列工具架120和行工具架122可以用数据元素填充(例如,列工具架120可以用数据元素X填充,而行工具架122可以用数据元素Y填充,反之亦然)。
图2是示出了根据一些实施方式的可以显示图形用户界面100的计算设备200的框图。计算设备200的各种示例包括台式计算机、膝上型计算机、平板计算机以及具有能够运行数据可视化应用和/或数据准备应用230的显示器和处理器的其他计算设备。计算设备200通常包括用于执行存储在存储器206中的模块、程序、和/或指令并从而执行处理操作的一个或更多个处理单元/核心(CPU)202;一个或更多个网络或其他通信接口204;存储器206;以及用于使这些部件互连的一个或更多个通信总线208。通信总线208可以包括在系统部件之间进行互连和控制在系统部件之间的通信的电路。
计算设备200包括用户接口210,该用户接口210包括显示设备212和一个或更多个输入设备或机构。在一些实施方式中,输入设备/机构包括键盘216。在一些实施方式中,输入设备/机构包括“软”键盘,“软”键盘根据需要显示在显示设备208上,使用户能够“按下”出现在显示器208上的“键(key)”。在一些实施方式中,显示器212和输入设备/机构210包括触摸屏显示器或触摸表面214(还被称为触敏显示器)。一些实施方式包括音频输入设备220和/或音频输出设备218。
在一些实施方式中,存储器206包括高速随机存取存储器,诸如DRAM、SRAM、DDRRAM或其他随机存取固态存储器设备。在一些实施方式中,存储器206包括非易失性存储器,诸如一个或更多个磁盘存储设备、光盘存储设备、闪存设备或其他非易失性固态存储设备。在一些实施方式中,存储器206包括远离CPU 202定位的一个或更多个储存设备。存储器206或可替代地在存储器206内的非易失性存储器设备包括非暂时性计算机可读存储介质。在一些实施方式中,存储器206或存储器206的计算机可读存储介质存储下面的程序、模块、和数据结构、或其子集:
操作系统222,其包括用于处理各种基本系统服务和用于执行硬件相关的任务的规程;
通信模块224,其用于经由一个或更多个通信网络接口204(有线或无线)和一个或更多个通信网络(例如互联网、其他广域网、局域网、城域网等)来将计算设备200连接到其他计算机和设备;
网络浏览器226(或能够显示网页的其他应用),其使用户能够通过网络与远程计算机或设备进行通信;
数据可视化应用和/或数据准备应用230,其为用户提供数据可视化用户界面232(例如,图形用户界面100)以构建视觉图形和/或询问自然语言查询。例如,用户选择一个或更多个数据源240(其可以储存在计算设备200上或远程储存),从数据源中选择数据字段和/或从数据源中搜索匹配自然语言查询的数据字段,并使用所选择的字段来定义视觉图形。在一些实施方式中,用户提供的信息被存储为视觉规范236。数据可视化应用230包括数据可视化生成模块234,数据可视化生成模块234采用用户输入(例如,视觉规范236),并生成相对应的视觉图形(也称为“数据可视化”或“数据viz”)。数据可视化应用230然后在用户界面100中显示所生成的视觉图形。在一些实施方式中,数据可视化应用230作为独立的应用(例如,桌面应用)来执行。在一些实施方式中,数据可视化应用230在网络浏览器226内或在使用由网络服务器提供的网页的另一个应用内执行。在一些实施方式中,数据可视化应用230包括用于处理(例如,解释)由计算设备的用户提供的命令的语言处理模块238。在一些实施方式中,命令是自然语言命令(例如,由音频输入设备220捕获)。在一些实施方式中,音频输入模块228处理来自一个或更多个音频输入设备的音频输入。在一些实施方式中,语言处理模块238包括子模块(例如自动完成模块、语用模块和/或歧义模块)。在一些实施方式中,存储器206储存由语言处理模块238确定的度量和/或分数。此外,存储器206可以储存阈值和其他标准,将这些阈值和其他标准与由语言处理模块238确定的度量和/或分数进行比较。例如,语言处理模块238可以为接收的命令的分析词/短语确定关联性度量(下面详细讨论)。然后,语言处理模块238可以将关联性度量与储存在存储器206中的阈值进行比较;
由数据可视化应用230使用的零个或更多个数据库或数据源240(例如,第一数据源240-1和第二数据源240-2)。在一些实施方式中,数据源被储存为电子表格文件、CSV文件、XML文件、或平面文件,或者被储存在关系数据库中;以及
会话模块242,其经由会话界面(例如,下面参考图3、图7A-图7W、图8A和图8B描述的界面)处理用户输入,并基于问题类型和/或用户偏好生成文本和/或可视化响应。
上面识别的可执行模块、应用、或规程集中的每一者可以被储存在前面提到的存储器设备中的一个或更多个中,并且对应于用于执行上述功能的指令集。上面识别的模块或程序(即,指令集)不需要被实现为独立的软件程序、过程、或模块,并且因此这些模块的各种子集可以在各种实施方式中被组合或以其他方式重新布置。在一些实施方式中,存储器206存储上面识别的模块和数据结构的子集。此外,存储器206可以存储上面未描述的附加模块或数据结构。
尽管图2示出了计算设备200,但是图2更多地预期作为可能存在的各种特征的功能描述,而不是作为本文所述的实施方式的结构示意图。在实践中且如本领域中的普通技术人员所认识到的,单独示出的项目可以组合并且一些项目可以被分离。
信息寻求的过程已经脱离了假设信息目标是良好形成的传统范式;即使用户有意寻求信息,他们也不一定确切知道他们想要什么。将“概念性知识”转化为可搜索查询,首先是某种模糊地感觉到想要知道一些东西的需要,并且逐渐发展到一个人可以描述期望的信息的某种属性的程度。这种探索性搜索是复杂的且需要认知的活动,该活动依赖于回忆和意义建构(sense-making)。
自动完成是支持这项复杂任务的有用机制,当用户在其搜索任务流中键入其查询时,从而显示现场(in-situ)建议。由于其作为指导搜索者提高效率的支架的有效性,自动完成在各种搜索环境中无处不在。最近,可视化分析工具中的自然语言(NL)交互已经在支持用户与其数据交互的表达方式方面获得了兴趣。
虽然可视化分析任务中的信息搜索与其他形式的搜索具有相似之处,但也有不同之处。可视化分析涉及需要理解底层数据的特征和数据集中包含的各种域(例如,数据字段的范围和详细程度)。在可视化分析工具的上下文中,用户面临的挑战之一是基于他们的分析查询制定自然语言查询的认知负荷。
查询重新制定通常基于数据域太宽、太窄或制定不当。用户需要指导,以理解他们是否通过返回的可视化结果找到了新的见解。缺乏指导可能干扰对朝向分析目标进展的准确感知。先前,这些自然语言系统中的自动完成是相当基本的,并且倾向于关注搜索查询的句法完成,而没有任何建议或有用的数据预览。需要在可视化分析上下文中自动完成,以支持具有数据发现的查询制定,以保持用户“在循环中”,从而指导他们做出相关性判断。
为了解决这个问题,一些实施方式使用了名为Sneak Pique的新颖的界面系统。目标是将现场建议的流动性引入可视化分析任务的典型分析表达式。一些实施方式使用一组基于文本和基于小部件的自动完成建议,这些建议在可视化中实现之前提供结果的数据预览。在一些实施方式中,系统在用户的查询被键入时评估用户的查询,并提供基于查询的句法结构和词元的语义动态更新的数据预览。
图3A和图3B示出了根据一些实施方式的当用户探索世界各地的冠状病毒病例数据集时在Sneak Pique中生成的自动完成建议300的示例。在所示出的示例中,用各种自动完成小部件提示用户,这些小部件提供了底层地理空间数据、时间数据和数值数据的适当预览。例如,“between”后面缺少词元将提示显示范围供用户从中选择。该系统还提供了从小部件切换到对应的文本自动完成下拉列表的机制,作为向下钻取到分层数据的方式。
图3A和图3B示出了根据一些实施方式的具有世界各地的冠状病毒病例数据集的Sneak Pique的屏幕截图302和304。如图3A中的屏幕截图302所示,用户键入查询“show mecases in”306,并用地图自动完成小部件310(有时称为地图小部件)和日历自动完成小部件312来提示,这些小部件分别提供地理空间数据频率和时间数据频率的预览。用户可以切换到文本自动完成下拉列表,以向下钻取到地理空间数据或时间数据。如图3B中的屏幕截图304所示,用户然后点击地图小部件310中的中国,并通过键入“between”308继续查找一系列病例。在一些实施方式中,系统显示一对数值范围小部件314和日期小部件316,其具有对应的数据频率直方图,以帮助指导用户基于底层数据选择有效范围。
一些实施方式使用自动完成作为数据发现支架,以在用户的可视化分析工作流期间帮助用户。在最简单的自动完成形式中,交互向用户显现(surface)预先计算的文本建议列表。一些实施方式将这种基本形式扩展到预览在可视化分析期间查询将检索到的内容的数据“线索(scent)”。
一些实施方式探索了自动完成变体的新颖的设计空间,以更好地理解用户对以下项的偏好:(1)数据预览的显示,(2)建议的排序顺序,和/或(3)在用于可视化分析的自然语言交互期间数据分层的导航。
一些实施方式使用自动完成系统(有时称为Sneak Pique)作为设计探针,用于从设计空间实现各种自动完成变体。在一些实施方式中,该系统采用前瞻解析器来支持部分查询的基本句法完成,以及在相关的基于文本和基于小部件的建议中动态建议缺失的数据值。
一些实施方式使用来自自动完成变体的众包研究(crowdsourced studies)的数据来更好地理解用户偏好,并减少这些变体的设计可能性空间。一些实施方式使用来自众包研究的调查结果来通知自动完成变体的子集。一些实施方式使用来自众包研究和/或历史使用数据的见解来设计用于可视化分析的自然语言输入系统。
支持可视化分析的自动完成
自动完成的主要目标是建议部分查询的有效完成,其意图是最大限度地减少用户在搜索任务期间的时间和精力。自动完成如何实现该目标有多种方法,并且其可以分类为三大类别:(1)支持句法查询制定的自动完成,(2)支持信息回忆和预览的自动完成,以及(3)支持可视化分析的自动完成。
查询自动完成(QAC)在网络搜索引擎、桌面搜索和移动设备中很普遍,在这些设备中,键入是费力的且容易出错。QAC技术通过提供包含来自查询的作为要匹配的关键字的前缀的输入字符的可能建议来用于提前键入搜索。也有研究探索单词和短语级自动完成的效用。系统已经着眼于通过开发容错QAC或模糊提前键入(fuzzy type-ahead)来处理搜索查询中的不精确性的方法。用于生成建议的排名算法着眼于时间信息、基于搜索行为的个性化和多样化,以提高用户在搜索中的回忆。虽然QAC技术对于面向精度的事实发现信息需求是有用的,但对于探索性搜索来说,这些QAC技术往往不太有效。由于信息预览随播放中的查询词元的上下文而变化,这也存在附加的复杂性。一些实施方式扩展了为QAC开发的技术,以支持动态指导用户的数据探索,同时制定句法上正确的自然语言话语。
为了支持信息回忆和预览的自动完成,一些传统的系统通过信息预览来示出面向回忆的活动。一些系统(例如DIALOG)跟踪查询历史,并且这些查询通过引用被重新使用。一些系统(例如VOIR)使用排名信息的直方图来显示文档的检索历史。一些系统(例如Ariadne)生成搜索轨迹的可视化表示,以检查(review)早期的动作。一些系统(例如,NRT)实施记录的先前运行的查询的历史机制,使得搜索者可以可视化地扫描结果列表以寻找新文档。一些系统采用数据模式的搜索界面,该搜索界面示出每个可能的建议属性的记录数。当用户绘制部分查询图时,一些系统(例如AutoG)示出可能的图。一些系统示出了查询预览小部件,该小部件在执行查询之前提供结果的可视化概要。这样的系统通过标记访问的内容和突出显示搜索文档中的变化来在结果页面中引导(orient)用户。这样的传统系统主要侧重文档搜索目标,文档搜索目标不同于可视化分析任务。
用于数据可视化的传统自然语言界面提供有限的文本自动完成,而没有底层数据的任何预览。其他界面支持查询重新制定,其中输入话语被转化成它们的表示底层系统语言的对应的规范形式。一些传统系统使用称为“察觉小部件(scented widget)”的图形用户界面控件,该控件可以支持数据分析任务。这样的系统通过附加的嵌入式可视化增强了传统的可视化小部件(如滑块、组合框和单选按钮),以促进信息空间中的导航。另一方面,本文描述的Sneak Pique系统可以用作设计探针,以检查具有数据预览的自动完成的文本和视觉变体如何在用于可视化分析任务的自然语言交互的上下文中为用户提供指导。
Sneak Pique系统
一些实施方式使用名为Sneak Pique的系统,该系统在可视化分析探索期间在自然语言界面中提供具有数据预览信息的自动完成建议。图4A示出了根据一些实施方式的Sneak Pique系统架构400。在一些实施方式中,系统架构400被实施为上面参考图2描述的设备200的存储器206中的一个或更多个模块。根据一些实施方式,该系统采用基于网络的客户端-服务器架构。在一些实施方式中,输入查询422(有时称为不完整自然语言命令、不完整查询或查询)由解析器402(例如,ANTLR解析器)使用包含预定义规则以及基于来自底层数据集的数据字段的数据值动态添加的规则的语法404(例如,上下文无关语法)来处理。在一些实施方式中,解析器402通过数据管理器424访问底层数据集(例如,来自数据库428的数据),数据管理器424具有处理数据请求的访问功能426。在一些实施方式中,当用户键入时,自动完成检测模块406轮询查询422,并且当查询部分完成时触发(408)语法解析树错误。在一些实施方式中,解析树错误被传递到自动完成生成器410,自动完成生成器410内省部分查询的句法结构以及如果查询完成则将满足的相关语法规则。生成器410确定(412)将部分查询解析为完整查询所需要的自动完成类型。在数据管理器424的帮助下,在一些实施方式中,生成器410计算(414)将在自动完成建议中显示(416)的必要数据预览信息。在一些实施方式中,然后在客户端的用户界面中渲染和显示自动完成建议(例如,可视化418)。用户用这些自动完成建议执行的任何交互由事件管理器420捕获。在一些实施方式中,系统基于执行自动完成的查询通过分析模块422更新可视化结果430。
自动完成检测
在一些实施方式中,Sneak Pique使用从左到右的LL(*)解析器,该解析器执行输入搜索查询的最左派生。LL(*)解析器用于生成自动完成建议,因为这类解析器可以从传统的固定的k≥1词元前瞻优雅地调大(throttle up)到任意前瞻(look-ahead),并且能够在无法构建合适解析路径的情况下回溯。在一些实施方式中,解析器的输入是用谓词补充的语法,谓词具有对应的前瞻动作来触发被发送到建议模块的事件。在一些实施方式中,每个语法规则封装了分析意图,其类似于其他自然语言可视化分析语法系统。规则由静态(即,在语法中预定义)或动态(即,根据数据库中数据字段的数据值实时计算)的词典组成。在语言学中,词典是具有已知语义的单词和短语的词汇表。在一些实施方式中,解析器将输入语法转换为等效的扩充转移网络(ATN),这是用于解析相对复杂的自然语言查询的语法的有效图表示。在一些实施方式中,使用流分析来计算状态模型,流分析通过从顶层节点可到达的所有节点来跟踪ATN图表示。给出一个语法G=(N,T,P,S,Π,μ),ATN状态机AG=(Q,∑,Λ,E,F)有五个元素:(i)Q是状态的集合,(ii)∑是词元N U T UΠUμ的集合,(iii)Λ是转换关系映射QX(∑Uε)→Q,(iv)E=pA,其中A∈N是条目状态的集合,以及(v)F=p'A,其中A∈N是最终状态的集合。
根据一些实施方式,为语法中的每个非终端词汇元素计算AG,为每个∑创建状态模型。非终端符号形成解析的句法结构,并被终端符号(即解析树中的叶节点)所取代。非终端边缘p-+p'是基于Λ的函数调用,其将返回状态p'推到解析状态堆栈上,以便它在到达状态流的停止状态后可以从p'继续。在一些实施方式中,解析器模拟ATN中的动作以预测Q中的下一个词元并计算前瞻解析树。当序列未解析为当前非终端的对应语法产生规则时,ATN中会发生预测错误。LL(*)预测状态模型报告特定词元处的错误,并提前扫描以确定是否存在可以解析该错误的任何非终端。根据一些实施方式,为了触发的自动完成,识别将生成有效解析树的最短前瞻序列。在一些实施方式中,自动完成检测算法被推广用于静态和动态词典。
在一些实施方式中,系统400包括前瞻解析器402——该解析器402包括语法404以及自动完成检测模块406,该模块406在用户键入或输入查询(例如,不完整查询422)时对该查询进行检查。当输入查询不完整时,解析器402解析查询并为输入生成解析树错误408和/或可能的解析树。自动完成生成器模块410基于解析树错误408确定(412)自动完成类型以解析部分/不完整的查询。在数据管理器424的帮助下,生成器410计算(414)预览数据并用数据频率信息更新自动完成建议。在用户界面中显示(416)自动完成建议(例如,可视化418)。用户可以与自动完成交互并更新查询以创建可视化响应430。
图4B示出了根据一些实施方式的示例,其中解析器402计算前瞻解析树并预测用于触发自动完成的词元。绿色节点430、432、434、436、438、440、442、444和446描绘语法规则,橙色节点448、450、452、454、456和458描绘词典,而红色节点460、462、464和466指示解析器错误。如图4B的顶部468(标记为(a))所示,自动完成建议“相关性”460为“show thecor”472生成有效解析。对于该示例,查询“show the cor”472在非终端节点cor 462处生成解析器错误,因为词元不匹配任何语法产生规则。解析器计算前瞻以找到静态词典相关性。在图4B的底部470(标记为(b))中,用户基于底层数据语义继续键入,来自位置数据的国家被建议用于“show the correlation for”474。输入“show the correlation for”474导致在解析树中进一步向下的错误466,这是因为查询缺少国家名称,国家名称是从数据集动态生成的词汇。解析树错误信息为自动完成生成器提供输入,以渲染建议。
自动完成生成
在检测到何时在解析过程中触发自动完成后,一些实施方式确定自动完成建议应该如何在界面中呈现。用于设计自动完成界面的一个关键指导原则是识别胜于回忆(recognition over recall):即以下观念,人们更擅长识别他们先前经历过的事情,而不是人们从记忆中回忆这些事情。自动完成还有助于在不熟悉数据的情况下的信息发现,在不存在回忆时提供指导。
自动完成的设计模式
一些实施方式使用以下设计模式用于Sneak Pique中的自动完成建议:
在部分搜索查询的上下文中提供建议:在一些实施方式中,自动完成通过在用户键入时呈现与用户输入匹配的项目来帮助搜索时的用户。当用户在搜索字段中键入更多文本时,匹配项目的列表会缩小。
排序顺序:在一些实施方式中,自动完成将最相关或最可能匹配的项目排序在列表的顶部。这允许用户快速选择匹配。
语义分组:在一些实施方式中,自动完成将相似的项目分组到类别中,以便于扫描和查找。
减少可视化噪声(visual noise):在一些实施方式中,自动完成通过仅将信息显示为预览而不是显示为最终结果来避免认知超负荷。
可管理列表:在一些实施方式中,自动完成限制要显示的匹配项目的数量,尤其是在处理(work with)大量数据值时。
轻量级交互性(Lightweight interactivity):在一些实施方式中,自动完成支持轻量级交互,允许用户选择建议的项目,从而节省时间和击键次数。自动完成也保持不引人注目,使得用户仍然可以键入完整的查询(如果他们选择这样做的话)。
自动完成类型的确定
一些实施方式将自动完成设计模式与信息可视化显示的最佳实践相结合。一些实施方式使用各种基于文本和小部件的自动完成表示。使用Sneak Pique作为设计探针,一些系统基于输入查询中缺失的动态词汇的数据类型实施自动完成变体。为了探索显示数据预览的效用,一些实施方式生成了这些变体,这些变体带有或不带有数据频率数,这些数据频率数指示这些值在数据集中出现的频率。一些实施方式还基于数据类型生成各种排序顺序。
图5A示出了根据一些实施方式的用于自动完成的示例设计空间500。每一行按数据类型示出了各种基于文本和小部件的表示。数据预览(DP)变体显示值的数据频率数。图5A描述了以下一组变体:
分类(第1行,标记为502):文本列表(例如,列表512、514和516)或条形图(例如,条形图518、520、522和524)示出了对具有各种排序顺序的分类数据字段的建议(例如,列表514按字母顺序排序,而列表516按频率进行数字排序)。如果存在数据预览(标记为“DP”),则数字显示在列表中或编码为条形长度。分类数据通常储存为表示离散值的字符串(例如公司销售的产品)。
数字(第2行,标记为504):文本小部件(例如,小部件526)或滑块小部件(例如,小部件528)示出数据字段的数据值范围。滑块小部件的变体(例如,小部件530)示出了对数据频率进行编码的直方图。
地理空间(第3行,标记为506):列表小部件(例如,小部件532、534和536)或地图图表小部件(例如,小部件538、540和542)示出了位置值。如果存在数据预览,则数字显示在列表中或作为可视化编码(即颜色、大小)显示在地图上。对于分层数据,提供了嵌套的列表视图或地图小部件来向下钻取(例如,从国家到城市)。显示的数字(当存在时)是数据库中数据字段的数据值。在这些示例中,显示的数字(或编码的数字)表示每个地理位置的冠状病毒病例总数。
时间(第4行,标记为508):列表小部件(例如,小部件544、546和548)或日历小部件(例如,小部件550、552、554和556)示出时间和/或时间值。如果存在数据预览,则信息在列表中以数字形式显示,或者在日历中显示为颜色编码。基于时间意图,日历小部件默认为适当的细节级别。例如,“cases on”示出带有日期视图的日历小部件,而“cases in”示出月份视图。对于时间范围,系统显示滑块。这些数字表示储存冠状病毒病例总数的数据字段的数据。
语义分组(第5行,标记为510):在自然语言系统中,地理空间和时间意图可能是有歧义的。例如,查询“show earthquakes in(示出……的地震)”可以指示缺失的位置或时间。一些实施方式通过在语义上将自动完成建议中的地理空间值和时间值分组为文本列表(例如,列表558和560)或地图和日历小部件的组合(例如,小部件562和564)来解决这种歧义。
一些实施方式采用了倾向于有利于在小显示区域中的点击交互的等面积投影。分层数据是数据记录的树结构表示。
在一些实施方式中,系统还提供与动态数据值和静态分析概念的部分文本匹配。例如,当用户键入“ma”时,系统会示出“Massachusetts”和“maximum”的匹配的建议。
图5B示出了根据一些实施方式的Sneak Pique中的数据预览计算570的示例。在节点572和574(以红色突出显示)之后触发具有数据预览的小部件。如(a)所示,用户从查询“show fatal cases in(显示……中的致命病例)”开始,该查询显示地图和日历小部件(例如,小部件576和578)。在后台,系统应用过滤器以仅选择死亡病例,然后应用适当的聚合方法将病例总数示出为小部件中的数据预览。接下来,如(b)所示,用户点击地图小部件576中的中国,导致完整的查询。当用户添加“between”时,如(c)中所示,系统在数字和时间小部件(例如,小部件580和582)中预测中国的范围。
计算数据预览
在一些实施方式中,系统计算与预测的动态词元相关联的数据字段的数据值的数据频率,并显示该信息。在一些实施方式中,数据预览生成基于当前查询的上下文动态更新数据预览结果。系统应用适当的聚合和过滤器分析功能。图5B示出了根据一些实施方式的这个过程。给定查询“show fatal cases in”,系统执行分析功能FilterCAT(caseType,==,death),对“death”应用过滤器。案例总数在地图小部件中按国家聚合,并且在日历小部件中按月份聚合。
在一些实施方式中,在生成数据预览之前,系统检查查询中数据字段的存在,以防止在与自动完成小部件交互时添加重复项(duplicate)。如图5B(第(c)部分)所示,对于查询“show me fatal cases in China between”,系统应用FilterCAT(caseType,==,death)和FilterGEO(country,==,China),但不会将这这些选项中的任何一个呈现为自动完成建议。
评估自动完成变体
对于示出专门设计用于可视化分析的自动完成建议的适当方式,目前没有标准指南。不清楚用户对这些自动完成变体中的每一个的偏好是什么,以及这些偏好如何基于数据类型、排序顺序或实际表示而变化。一些实施方式探索了用于在可视化分析自然语言界面中制定合理默认值的适当自动完成建议将看起来是什么样子的这些特征中的一些特征。一些实施方式不使用速度或准确度方面的客观度量,因为相关的内容是用户关于最适当的自动完成变体的偏好。通常,在某些情况下,大多数用户都同意一组可靠的设计指南。
一些实施方式使用几个实验来识别用户对影响自动完成建议选择的各种因素的偏好。图6A示出了根据一些实施方式的使用系统执行以识别自动完成变体的子集的各种机械土耳其人实验600。第一实验602比较显示数据频率和不显示数据频率的自动完成变体。第二实验604分析排序顺序偏好。第三实验606分析用户对导航分层数据的偏好。为了进一步说明,在一些实施方式中,例如,第一实验比较显示数据频率信息和不显示数据频率信息的自动完成变体,以理解这样的数据预览是否对用户有用。第二实验检查了排序顺序的类型,该排序顺序的类型对于应用于文本自动完成建议中示出的项目将非常有用。以及,第三实验比较了显示具有分层的数据值和显示不具有分层的数据值的自动完成变体,以便更好地理解是否应该向用户建议分层数据以及以什么形式向用户建议分层数据。一些实验使用了不同于图6A所示出的刺激的一组刺激。
在一些情况下,参与者发现数据预览信息在所有自动完成变体中都是有用的。在一些情况下,参与者更喜欢按其数据频率降序排序的项目,因为更普遍的数据值应该在建议中示出得更高。对于时间项目,用户更喜欢按时间顺序排序。在一些情况下,分层文本建议比小部件更容易导航。然而,参与者发现日历小部件有助于导航时间分层。
示例实验设计
对于每个实验,参与者都是从亚马逊机械土耳其人(Amazon Mechanical Turk)招募的,这是一个在许多当代研究中流行的众包平台。参与者是在美国说英语的人,其中接受率至少为95%,且有500个批准的任务。刺激不需要排除颜色缺陷的参与者。参与者只能完成一次试验,以避免重复接触任务可能产生的偏见。这些实验使用了美国地震数据集,该数据集按地点和时间列出了震级,因为这很可能为广大民众所理解。实验步骤为:
训练任务:图表示出了不同国家预期寿命和收入之间关系的散点图,并附有练习题,以确保对自动完成建议的理解。
总体任务描述和指示的演示。
实际任务:新的页面示出了搜索框,其内容是“find earthquakes[in/between]...(找出……[中/之间]的地震)”。向参与者示出随机顺序的两个图像自动完成选项,要求参与者选择他们最喜欢(top preferred)的选项。提供了自由形式的文本响应框来解释偏好。
由于空间限制,在一些实验中,只向用户示出每个实验的一组样本刺激。
实验结果
总的来说,参与者对自动完成交互持积极态度,并确定了许多好处。Sneak Pique允许参与者在他们在键入时内省数据(“This is cool...provides me a way to seewhat I will get while I am typing my question(这很酷……向我提供了一种方法来查看我在键入我的问题时我将会得到什么)”[P'1]),帮助他们主动发现数据中的内容(“Bytyping,I can already filter to a specific country and see what’s in therewithout having to see the result and try again....I don’t have to shoot dartsin the dark(通过键入,我已经可以过滤到一个特定的国家,并看到其中的内容,而不必查看结果并再次尝试....我不必毫无依据胡乱猜想)”[P'4]),并且可以节省时间(“I couldfinish the tasks really fast as the autocompletion guided me to see where tolook(我可以真的很快完成任务,因为自动完成会指导我去查看要看的地方)。”[P'7])。在上面的描述中,P'X指示这些研究结果中的参与者ID,以区别于机械土耳其人研究中的参与者ID。
第1部分-目标标准任务
八名参与者中有六名参与者能够成功完成所有任务。当自动完成小部件中编码的数据频率信息在视觉上可辨别时,任务更容易完成。一名参与者在选择冠状病毒病例的高发病率或低发病率的值时,试图在视觉上比较国家或月份时遇到了困难。另一名参与者在Sneak Pique界面中访问分层数据时有困难。
第2部分-开放式任务
这个开放式任务演示了当用户键入他们的查询时,自动完成是如何帮助数据发现的。参与者展示了句法查询完成和按地点、时间以及范围完成过滤器表达式的自动完成。每名参与者的单独查询数量范围为从8到23(μ=11.3),其中46%是通过在适当位置编辑对先前键入的查询进行重新制定。总的来说,大量的部分查询使用带有数据预览的自动完成来帮助解析为完整的查询(69%)。小部件的使用大致平均分布在日历(34%)小部件、滑块(33%)小部件和地图(29%)小部件上。其余的是用于访问分层数据的文本自动完成。与这种行为相关的评论包括“That was convenient to type to an extent and rely on thecalendar to go to a specific date that was interesting,I hate typing dates(这在一定程度上方便了键入,并依赖日历去一个有趣的特定日期。我讨厌键入日期)”[P'4]和“Getting a range right is a hit or miss for me.Helpful to see where most ofthe data is and pick with slider((获得正确的范围对我来说是件碰运气的事。有助于查看大部分数据的位置并使用滑块进行选择)”[P'1]。参与者直接键入特定事实调查问题的自然语言查询,例如“show me the cases in New York last month(给我示出上个月纽约的病例)”和“highest cases in India(印度最高病例)”,其中查询总数的33%属于这一类别。
Sneak Pique的这一实验评估证实了以下直觉:用户发现在执行可视化分析时数据预览在自动完成中是有用的。结果表明,当预览存在时,参与者会对搜索词进行更多的思考;他们在查询构建期间和检查搜索结果时都会进行更有意义的行为。来自这项研究的观察结果为自动完成如何能够帮助可视化分析任务提供了以下设计含义,为未来的研究开辟了新的机会:
各种可视化分析工作流的自动完成:在研究的第一部分期间任务干预的效果是,当参与者利用数据预览来完成任务时,存在较少的查询重新制定。实验的第二部分更能表示现实世界的实践:用户在制定他们的查询时改变了策略。参与者使用数据预览作为支架来构建复合查询,其中在原始查询中增量更新了多个过滤器。P'2说,“I find itconvenient to pile more filters in my question as the views in theautocompletion get updated...saves me time when I’m playing around(我发现在我的问题中堆积更多的过滤器很方便,因为自动完成中的视图会获得更新...在我轻率对待时节省了我的时间)。”在数据探索期间,如果数据预览不再有趣,则参与者将去除或清除这些过滤器子表达式。对于直接的事实调查问题,参与者将直接键入问题,而不需要数据预览。然而,文本自动完成有助于在键入词元时指导他们。这些观察结果表明,基于查询的类型以不同的方式使用自动完成。在一些实施方式中,自动完成工作流适应可视化分析期间的一系列任务。
支持更复杂的预览
如上所述,Sneak Pique通过数据预览实现了一些基本的分析功能(例如,过滤器和聚合)。在一些实施方式中,该功能被扩展以使统计知识有限的人能够访问复杂的分析。例如,P'3评论道:“I want to type(我想要键入)‘show me cases with decliningtrends...(向我示出呈下降趋势的病例……)’and get a widget showing me thecountries where the cases were going down so I can decide where to look(并获得小部件向我示出病例下降的国家,这样我就可以决定去看哪里)。”对于具有地理空间和时间意图的查询,例如“coronavirus cases in(在……中的冠状病毒病例)”,参与者期望地图小部件和日历小部件协调一致,并期望点击地图中的一个国家将更新日历小部件中其对应的时间预览(反之亦然)。一些实施方式使用数据预览来指示系统对语义概念的理解,例如在地图小部件中针对“cases in the west coast(西海岸病例)”突出显示加利福尼亚、俄勒冈和华盛顿,或者在小部件中突出显示多项选择(multi-selection),以支持人们如何思考空间搜索。一些实施方式平衡了交互的简单性和更复杂的预览,以服务于更广泛的分析问题。一些实施方式平衡了向自动完成本身添加功能与让用户在可视化中探索结果。在一些实施方式中,自动完成行为被设计成高性能的,以支持实时交互。
示出自动完成行为的来源
虽然大多数参与者理解数据预览的目的,但他们描述了关于基于查询中的上下文的内容理解自动完成行为的可用性问题。当一个或更多个过滤器在运行时,数据预览被动态更新以反映上下文中的数据域。这种行为并不总是直观的,要么需要实验者澄清,要么参与者在尝试选择小部件中的禁用项目后将最终弄清楚功能。P’7声明-“It would be goodif I can see amessage appearing saying that I am already looking at April andthe data in the autocompletion is for that month(如果我能看到一条消息,看起来说我已经在看4月份了,并且自动完成中的数据是该月份的,那就太好了)。”尽管自动完成建议的动态生成有助于向用户提供现场指导,但一些实施方式在界面中主动示出这种反馈,以设置适当的用户期望。
自动完成建议的个性化
在探索性研究期间,出现了自动完成行为个性化的主题。P’3、P’4和P’8表示他们想要自动完成保持跟踪他们过去的交互并更新默认视图。例如,P’4说“I am interestedin the days and not months as these coronavirus cases are changing so much.Idon’t want to keep switching from month to day view every time(我感兴趣的是日,而不是月,因为这些冠状病毒病例变化如此之大。我不想要保持每次都从月视图切换到日视图)”。一些实施方式监控用户与Sneak Pique的交互,记录用户查询,并更新自动完成偏好。
对于信息建构的意义来说,自动完成是一种有用的交互范例。如上所述,SneakPique是一个设计探针,用于在可视化分析和数据发现的上下文中探索自动完成的空间。根据一些实施方式,如上面参考图4A和图4B所描述的,系统使用高效的前瞻解析器来解析文本和小部件自动完成变体的静态词元以及动态数据值。用户研究结果表明,数据预览确实有用,并告知如何可以在界面中有用地呈现这些信息。一些实施方式在最终实施方式中使用优选的自动完成变体的子集。以这种方式,自动完成可以用作数据支架,以帮助用户对可视化分析任务做出相关性判断。一些实施方式在轻量级交互性和丰富的分析预览之间取得了平衡。
图6B示出了根据一些实施方式的在系统确定数据频率对示出(给用户)有用之后图5A所示的设计空间。参与者优选按数据频率对分类数据进行排序(例如,列表516),以及对时间(time)(或时间(temporal))数据按时间顺序排序(例如,小部件546)。参与者还针对地理空间数据和数字范围分别优选地图(例如,小部件540)和直方图滑块(例如,小部件530)。参与者还优选具有语义分组的文本自动完成(例如,小部件560)用于显示分层数据。参与者还优选用于导航时间数据的日历小部件(例如,小部件554)。地图和日历小部件一起示出,用于使用时间和地点值完成查询。一些实施方式使用从这些实验中获得的结果来确定不同类型数据的优选或默认变体。
图7A示出了根据一些实施方式的显示在用户界面700上的示例总结性表格702。示例总结性表格702示出了世界各地的冠状病毒爆发。图7B示出了根据一些实施方式的当用户键入“show”704时对总结性表格702的更新并且系统用自动完成选择706来响应。接下来,如图7C所示,根据一些实施方式,当用户继续键入“show me cas”704时,系统缩小选择706。接下来,如图7D所示,根据一些实施方式,假设用户继续键入“show me cases in”,则系统通过示出看起来完成查询的地图和日历小部件(例如,小部件708和710)来响应。请注意,值的数据频率在每个小部件中都用颜色进行编码。图7E示出了用户已经(从地图小部件708)选择了美国作为地点712。图7E还示出了根据一些实施方式的地图和日历小部件中的数据预览。图7F、图7G、图7H和图7I示出了根据一些实施方式响应于用户选择714而更新的总结性表格702。图7H和图7I示出了该系统报告在美国发现的病例数716并且该国家被设置(718)为“美国”。图7J示出了在用户键入单词“on”720之后的用户界面700。这将基于词元的语义触发小部件。具体地,总结性表格示出了日历小部件722。图7K示出了当用户浏览(724)到示出美国病毒病例高发病率的3月份时对总结性表格702的更新。假设用户选择4月份(特别是2020年4月9日)726,如图7L所示。如图7M所示,在选择之后总结性表格被更新(例如,发现的病例数728和日期730被更新)。
图7N示出了在用户键入单词“deaths(死亡数)”732的一部分之后的用户界面。在一些实施方式中,系统支持句法文本查询完成,因此系统建议“deaths”作为供用户从中选择的选项734之一。图7O示出了在选择“deaths”736之后对总结性表格的更新。具体地,总结性表格被更新以示出截至2020年4月9日(744)针对美国(740)的死亡数(738)的病例数742。假设接下来用户选择“start over(重新开始)”746,如图7P所示。随后,如图7Q所示,响应于用户选择,总结性表格被自动更新(例如,重置),以示出世界地图750(而不是如图7P中的地图748所示的美国的死亡数)以及世界地图上的冠状病毒实例(作为数据标记)。图7R示出了用户键入“cases more than 300between(在……之间多于300的病例)”752后用户界面的状态。作为响应,弹出用于选择数据范围的直方图滑块754。图7S示出了用户滑动(756)直方图滑块并选择2020年3月12日和2020年4月19日之间的日期。图7T示出了响应于所选择的日期范围752对可视化的更新758。图7U示出了在用户添加单词“in(在……中)”760之后的用户界面。如示例中所示,在弹出窗口764中仅突出显示在该日期范围内病例超过300的国家762。
接下来参考图7V,在一些实施方式中,数据预览更新基于(在用户与总结性表格交互时)正在运行(in play)的过滤器。假设用户选择加拿大作为地点766。图7W示出了响应于在图7V中用户选择新地点而对总结性表格的更新770(如“国家==加拿大”768所示)。以这种方式,数据预览在可视化分析任务期间用作有用的支架,并有助于利用运行中的多个过滤器制定复杂的用户查询。这些特征还帮助用户完成分析查询。小部件经常用于时间、地点和范围选择,而文本用于句法自动完成。一些实施方式还探索(例如,权衡各种选项)复杂预览和个性化、统计预览、值的多项选择以及保存自定义偏好。
图8A和图8B示出了根据一些实施方式的用于选择位置分层值的文本自动完成。
图9A-图9L提供了根据一些实施方式的利用(902)数据发现来支持数据集的可视化分析的方法900的流程图。该方法在具有一个或更多个处理器202和存储器206的计算系统(例如,系统200)处执行(904),存储器206储存(906)被配置为由一个或更多个处理器执行的一个或更多个程序。该方法包括接收(908)用户对数据源的选择。该方法还包括呈现(910)用于分析来自所选择的数据源的数据的自然语言界面。该方法还包括接收(912)用户输入以指定指向数据源的不完整自然语言命令。
该方法还包括将不完整自然语言命令中的一个或更多个单词与所选择的数据源中的数据字段相关联(914)。
接下来参考图9C,在一些实施方式中,将不完整自然语言命令中的一个或更多个单词与所选择的数据源中的数据字段相关联包括基于所选择的数据源中的数据字段的数据值生成(922)语法规则。在一些实施方式中,使用从左到右(LL(*))解析器来执行(928)对不完整自然语言命令的解析,该解析器执行不完整自然语言命令的最左派生,并且在不能构建合适的解析路径的情况下回溯。在一些实施方式中,该方法通过使用语法规则解析不完整自然语言命令并检测语法解析树错误来确定(926)不完整自然语言命令中的一个或更多个单词是否包括部分完整的查询。在一些实施方式中,语法规则对应于(924)上下文无关语法,该语法包括预定义的规则和基于数据字段的数据值动态生成的规则。
当不完整自然语言命令包括部分完整的查询时,该方法执行(930):(a)计算(932)部分完整的查询的句法结构以及在部分完整的查询完成的情况下将满足的相关语法规则;以及(b)基于相关语法规则从所选择的数据源中选择(934)数据字段。在一些实施方式中,该方法还包括基于相关语法规则显示(936)将部分完整的查询解析为完整的自然语言命令所需要的一个或更多个自动完成建议。图7N和图4B的部分(a)(如上所述)示出了根据一些实施方式的句法文本查询完成的示例。换句话说,除了通过将不完整自然语言命令与底层数据集相关联来生成适当的可视化之外,一些实施方式还提供文本自动完成,而不涉及底层数据字段(例如,基于公共语言使用和/或基于历史使用数据)。
接下来参考图9D,在一些实施方式中,关联不完整自然语言命令中的一个或更多个单词是基于(938)分析不同数据类型(包括分类数据、数字数据、地理空间数据、时间数据及其组合)的文本自动完成或小部件自动完成的用户偏好。在一些实施方式中,该方法还包括:(i)在可视化分析期间检测(940)一系列任务中用户偏好的变化;以及(ii)进一步基于使自动完成工作流适应不同数据类型的变化来关联(942)不完整自然语言命令中的一个或更多个单词。
返回参考图9B,该方法还包括确定(916)数据字段的数据类型和数据源中关于数据字段的数据值的范围。
该方法还包括根据数据类型和数据值的范围,呈现(918)不完整自然语言命令的一个或更多个自动完成选项。每个选项包括相应的文本和相应对应的视觉图形。
接下来参考图9E,在一些实施方式中,当数据类型是分类类型时,该方法显示(944)文本列表,该文本列表示出了对分类数据字段的建议。根据数据频率对建议按数字进行排序(944),并且文本列表包括数据预览,该数据预览示出了数据字段的数据值的相应数据频率。
接下来参考图9F,在一些实施方式中,当数据类型是数字类型时,该方法显示(946)直方图滑块小部件,该直方图滑块小部件示出了数字数据字段的数据频率的直方图。
接下来参考图9G,在一些实施方式中,当数据类型是地理空间类型时,该方法显示(948)地图图表小部件,该地图图表小部件示出数据字段的位置值的数据预览,将数字范围示出为可视化编码。
接下来参考图9H,在一些实施方式中,当数据类型是时间类型时,该方法显示(950)(i)示出按时间顺序排序的时间数据的文本列表,(ii)示出第一时间数据字段的时间分层的日历小部件,或者(iii)示出第二时间数据字段名称的数据频率的直方图的直方图滑块小部件。例如,图7R和图7S(上面所述)示出了根据一些实施方式的用于选择数据范围的直方图滑块。
接下来参考图9I,在一些实施方式中,当数据类型既是地理空间类型又是时间类型时,该方法显示(952)(i)具有针对分层数据的语义分组的文本列表,或者(ii)地图和日历小部件的组合。
接下来参考图9J,在一些实施方式中,当数据类型对应于分层数据时,该方法提供(954)用于选择分层值的一个或更多个文本自动完成选项。图8A和图8B(上面所述)示出了根据一些实施方式的用于选择位置分层值的文本自动完成选项的示例。
接下来参考图9K,在一些实施方式中,呈现不完整自然命令的一个或更多个自动完成选项包括:(i)检测(956)用于为数据字段选择相应的文本而不是相应对应的视觉图形的用户输入;以及(ii)响应于检测到选择相应文本的用户输入,从显示相应对应的视觉图形切换(958)到显示相应的文本。相应的文本提供一个或更多个文本自动完成选项。图8A和图8B(上面所述)示出了根据一些实施方式的小部件和文本的示例。
接下来参考图9L,在一些实施方式中,呈现不完整自然命令的一个或更多个自动完成选项包括显示(960)示出数据预览的一个或更多个小部件。例如,图7E(上面所述)示出了根据一些实施方式的示例数据预览。在一些实施方式中,基于从解析不完整自然语言命令获得的词元的语义来触发(962)一个或更多个小部件。图7J和图7K示出了根据一些实施方式的基于从解析不完整自然语言命令获得的词元语义触发的小部件的示例。在一些实施方式中,该方法还包括:(i)接收(964)第二用户输入以指定指向数据源的第二不完整自然语言命令;以及(ii)基于第二用户输入和在数据可视化中使用的过滤器来计算和显示(966)对数据预览的更新。图7V和图7W(上面所述)示出了根据一些实施方式的对数据预览的更新的示例。一些实施方式储存或保留先前可视化的上下文,并在未来的可视化中重新使用该上下文。例如,当用户键入“deaths”时,一些实施方式理解用户指的是与当前可视化中示出的地点和/或时间相关的死亡数,并相应地更新可视化。图7M、图7N和图7O(上面所述)示出了根据一些实施方式的基于数据字段更新一个或更多个数据可视化的示例。为了进一步说明,在图7M中,根据一些实施方式,世界地图的不同部分被用数据填充或被突出显示。
在一些实施方式中,该方法还包括:(i)在接收第二用户输入之前,储存(968)数据可视化的初始状态;(ii)接收(970)第三用户输入以指定指向数据源的第三不完整自然语言命令;以及(iii)当第三不完整自然语言命令对应于重置数据可视化的用户请求时,基于数据可视化的初始状态恢复(972)数据可视化。图7P和图7Q(上面所述)示出了根据一些实施方式的重置到初始可视化的示例。
返回参考图9B,该方法还包括响应于用户对一个或更多个自动完成选项中的选项的选择,形成(920)完整自然语言命令并且根据完整自然语言命令显示数据可视化。
在本发明的描述中使用的术语仅为了描述特定实施方式的目的,且并不意欲限制本发明。如在本发明的描述和所附的权利要求中所使用的,单数形式“一(a)”、“一(an)”、和“该(the)”意欲也包括复数形式,除非上下文另外清楚地指示。还要理解的是,如在本文使用的术语“和/或”指相关的所列出的项目中的一个或更多个的任何和所有可能的组合并包括这些组合。应当进一步理解,术语“包括(comprises)”和/或“包括(comprising)”当在本说明书中使用时,指定所陈述的特征、步骤、操作、元件和/或组件的存在,但不排除存在或添加一个或更多个其他特征、步骤、操作、元件、组件和/或它们的组。
为了解释的目的,已经参考特定实现描述了前述描述。然而,上面的说明性讨论并不意欲为无遗漏的或将本发明限制到所公开的精确形式。鉴于上面的教导,许多修改和变形是可能的。实施方式被选择和描述是为了最好地解释本发明的原理及其实际应用,以从而使本领域中的其他技术人员能够以适合于所设想的特定用途的各种修改最好地利用本发明和各种实施方式。

Claims (20)

1.一种利用数据发现来支持数据集的可视化分析的方法,包括:
在具有一个或更多个处理器和储存被配置为由所述一个或更多个处理器执行的一个或更多个程序的存储器的计算系统处:
接收用户对数据源的选择;
呈现用于分析所选择的数据源中的数据的自然语言界面;
接收用户输入以指定指向所述数据源的不完整自然语言命令;
将所述不完整自然语言命令中的一个或更多个单词与所选择的数据源中的数据字段相关联;
确定所述数据字段的数据类型和所述数据源中关于所述数据字段的数据值的范围;
根据所述数据类型和所述数据值的范围,为所述不完整自然语言命令呈现一个或更多个自动完成选项,其中,每个选项包括相应的文本和相应对应的视觉图形;以及
响应于用户对所述一个或更多个自动完成选项中的选项的选择,形成完整自然语言命令并根据所述完整自然语言命令显示数据可视化。
2.根据权利要求1所述的方法,其中,将所述不完整自然语言命令中的所述一个或更多个单词与所选择的数据源中的所述数据字段相关联包括:
基于来自所选择的数据源的数据字段的数据值生成语法规则;
通过使用所述语法规则解析所述不完整自然语言命令并检测语法解析树错误来确定所述不完整自然语言命令中的所述一个或更多个单词是否包括部分完整的查询;以及
根据所述不完整自然语言命令包括部分完整的查询的确定:
计算所述部分完整的查询的句法结构和在所述部分完整的查询完成的情况下将满足的相关语法规则;以及
基于所述相关语法规则从所选择的数据源中选择所述数据字段。
3.根据权利要求2所述的方法,还包括:
基于所述相关语法规则显示将所述部分完整的查询解析为所述完整自然语言命令所需要的一个或更多个自动完成建议。
4.根据权利要求2所述的方法,其中,使用从左到右(LL(*))解析器来执行对所述不完整自然语言命令的解析,所述解析器执行所述不完整自然语言命令的最左派生,并且在不能构建合适的解析路径的情况下回溯。
5.根据权利要求2所述的方法,其中,所述语法规则对应于上下文无关语法,所述上下文无关语法包括预定义的规则和基于所述数据集中的所述数据字段的数据值动态生成的规则。
6.根据权利要求1所述的方法,其中,关联所述不完整自然语言命令中的所述一个或更多个单词是基于分析关于不同数据类型的文本自动完成或小部件自动完成的用户偏好,所述不同数据类型包括分类数据、数字数据、地理空间数据、时间数据及其组合。
7.根据权利要求6所述的方法,还包括:
在可视化分析期间检测一系列任务中用户偏好的变化;以及
进一步基于使自动完成工作流适应所述不同数据类型的变化来关联所述不完整自然语言命令中的所述一个或更多个单词。
8.根据权利要求1所述的方法,其中,为所述不完整自然命令呈现所述一个或更多个自动完成选项包括:
根据所述数据类型是分类类型的确定,显示示出针对分类数据字段的建议的文本列表,其中,根据数据频率对所述建议进行数值排序,并且所述文本列表包括示出所述建议的相应数据频率的数据预览。
9.根据权利要求1所述的方法,其中,为所述不完整自然命令呈现所述一个或更多个自动完成选项包括:
根据所述数据类型是数字类型的确定,显示直方图滑块小部件,所述直方图滑块小部件示出数值数据字段的数据频率的直方图。
10.根据权利要求1所述的方法,其中,为所述不完整自然命令呈现所述一个或更多个自动完成选项包括:
根据所述数据类型是地理空间类型的确定,显示地图图表小部件,所述地图图表小部件示出数据字段的位置值的数据预览,将数字范围示出为可视化编码。
11.根据权利要求1所述的方法,其中,为所述不完整自然命令呈现所述一个或更多个自动完成选项包括:
根据所述数据类型是时间类型的确定,显示(i)示出按时间顺序排序的时间数据的文本列表,(ii)示出第一时间数据字段的时间分层的日历小部件,或(iii)示出第二时间数据字段的数据频率的直方图的直方图滑块小部件。
12.根据权利要求1所述的方法,其中,为所述不完整自然命令呈现所述一个或更多个自动完成选项包括:
根据所述数据类型既是地理空间类型又是时间类型的确定,显示(i)具有针对分层数据的语义分组的文本列表,或者(ii)地图和日历小部件的组合。
13.根据权利要求1所述的方法,其中,为所述不完整自然命令呈现所述一个或更多个自动完成选项包括显示示出数据预览的一个或更多个小部件。
14.根据权利要求13所述的方法,其中,基于从解析所述不完整自然语言命令获得的词元的语义来触发所述一个或更多个小部件。
15.根据权利要求13所述的方法,还包括:
接收第二用户输入以指定指向所述数据源的第二不完整自然语言命令;以及
基于所述第二用户输入和在所述数据可视化中使用的过滤器来计算和显示对所述数据预览的更新。
16.根据权利要求15所述的方法,还包括:
在接收所述第二用户输入之前储存所述数据可视化的初始状态;
接收第三用户输入以指定指向所述数据源的第三不完整自然语言命令;
根据所述第三不完整自然语言命令对应于重置所述数据可视化的用户请求的确定,基于所述数据可视化的初始状态来恢复所述数据可视化。
17.根据权利要求1所述的方法,其中,为所述不完整自然命令呈现所述一个或更多个自动完成选项包括:
检测用于为所述数据字段选择所述相应的文本而不是所述相应对应的视觉图形的用户输入;以及
响应于检测到选择所述相应的文本的所述用户输入,从显示所述相应对应的视觉图形切换到显示所述相应的文本,其中,所述相应的文本提供一个或更多个文本自动完成选项。
18.根据权利要求1所述的方法,其中,为所述不完整自然命令呈现所述一个或更多个自动完成选项包括:
根据所述数据类型对应于分层数据的确定,提供用于选择分层值的一个或更多个文本自动完成选项。
19.一种用于利用数据发现来支持数据集的可视化分析的计算机系统,包括:
一个或更多个处理器;以及
存储器;
其中,所述存储器储存被配置为由所述一个或更多个处理器执行的一个或更多个程序,并且所述一个或更多个程序包括用于执行根据权利要求1-18所述的方法中任一项的指令。
20.一种非暂时性计算机可读存储介质,其储存一个或更多个程序,所述程序被配置为由具有显示器、一个或更多个处理器和存储器的计算机系统执行,所述一个或更多个程序包括用于执行根据权利要求1-18所述的方法中的任一项的指令。
CN202180048379.1A 2020-05-06 2021-04-21 利用自动完成作为支持可视化分析的数据发现支架 Pending CN116097246A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063021066P 2020-05-06 2020-05-06
US63/021,066 2020-05-06
US17/010,770 2020-09-02
US17/010,770 US11868343B2 (en) 2020-05-06 2020-09-02 Utilizing autocompletion as a data discovery scaffold for supporting visual analysis
PCT/US2021/028308 WO2021225784A1 (en) 2020-05-06 2021-04-21 Utilizing autocompletion as a data discovery scaffold for supporting visual analysis

Publications (1)

Publication Number Publication Date
CN116097246A true CN116097246A (zh) 2023-05-09

Family

ID=78412809

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180048379.1A Pending CN116097246A (zh) 2020-05-06 2021-04-21 利用自动完成作为支持可视化分析的数据发现支架

Country Status (4)

Country Link
US (1) US11868343B2 (zh)
EP (1) EP4147141A1 (zh)
CN (1) CN116097246A (zh)
WO (1) WO2021225784A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11720240B1 (en) * 2021-06-20 2023-08-08 Tableau Software, LLC Visual autocompletion for geospatial queries
US20230070209A1 (en) * 2021-09-03 2023-03-09 The Travelers Indemnity Company Monitoring system
US11983181B1 (en) * 2022-06-10 2024-05-14 Splunk Inc. Data stream processing instruction set previews using batch conversion

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6564213B1 (en) * 2000-04-18 2003-05-13 Amazon.Com, Inc. Search query autocompletion
US9721362B2 (en) * 2013-04-24 2017-08-01 Microsoft Technology Licensing, Llc Auto-completion of partial line pattern
US20170277737A1 (en) * 2016-03-23 2017-09-28 Ebay Inc. Compact index document generation for smart match autocomplete system
US10311670B2 (en) 2017-07-08 2019-06-04 Gaming Analytics Inc Machine-learning platform for operational decision making

Also Published As

Publication number Publication date
US20210349950A1 (en) 2021-11-11
EP4147141A1 (en) 2023-03-15
WO2021225784A1 (en) 2021-11-11
US11868343B2 (en) 2024-01-09

Similar Documents

Publication Publication Date Title
US11790006B2 (en) Natural language question answering systems
Narechania et al. NL4DV: A toolkit for generating analytic specifications for data visualization from natural language queries
US11347783B2 (en) Implementing a software action based on machine interpretation of a language input
US11442932B2 (en) Mapping natural language to queries using a query grammar
US20190384762A1 (en) Computer-implemented method of querying a dataset
KR102334064B1 (ko) 음성 입력에 기초한 테이블형 데이터에 관한 연산의 수행 기법
US7613719B2 (en) Rendering tables with natural language commands
JP5744873B2 (ja) トラステッドクエリのシステムおよび方法
US8346795B2 (en) System and method for guiding entity-based searching
TWI493367B (zh) 搜尋結果之先進過濾方法
JP5501967B2 (ja) 間接話法内の意味論的関係の識別
CN116097246A (zh) 利用自动完成作为支持可视化分析的数据发现支架
KR20160144384A (ko) 딥 러닝 모델을 이용한 상황 의존 검색 기법
Setlur et al. Sneak pique: Exploring autocompletion as a data discovery scaffold for supporting visual analysis
US20230376185A1 (en) Visual Autocompletion for Geospatial Queries
Li InfoPlanet: Visualizing a semantic web to improve search results through exploration and discovery
WO2022147286A1 (en) Interpreting vague intent modifiers in visual analysis using word co-occurrence and sentiment analysis
JP2002278991A (ja) 文書情報検索システム
US20090157655A1 (en) Process For Computer Supported Processing of Course Data Elements, System and Computer Program Product

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination