CN113811869A - 将自然语言查询翻译成标准数据查询 - Google Patents

将自然语言查询翻译成标准数据查询 Download PDF

Info

Publication number
CN113811869A
CN113811869A CN202080034971.1A CN202080034971A CN113811869A CN 113811869 A CN113811869 A CN 113811869A CN 202080034971 A CN202080034971 A CN 202080034971A CN 113811869 A CN113811869 A CN 113811869A
Authority
CN
China
Prior art keywords
natural language
computer
query
standard data
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080034971.1A
Other languages
English (en)
Inventor
P.W.J.斯塔
M.多尔菲
C.奥尔
L.乔戈普洛斯
A.索布奇克
T.J.巴卡尔特
K.贝卡斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN113811869A publication Critical patent/CN113811869A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24522Translation of natural language queries to structured queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种用于为自然语言查询生成标准答案(ground‑truth)的计算机实现方法可包括:提供知识图作为数据模型;接收来自用户的自然语言查询;以及将所述自然语言查询翻译成标准数据查询。该方法还可以包括向用户可视化标准数据查询以及从用户接收反馈响应。反馈响应可以包括经验证的和/或经编辑的标准数据查询。该方法还可包括将自然语言查询和对应的反馈响应存储为标准答案对(ground‑truth pair)。可以提供相应的系统和相关的计算机程序产品。

Description

将自然语言查询翻译成标准数据查询
技术领域
本公开涉及一种用于标准答案(ground-truth)生成的计算机实现的方法。
背景技术
本公开进一步涉及相应的系统、相应的计算机程序产品和相应的用户界面。
自然语言查询(NLQ)是研究如何使用自然语言查询机器的科学领域。通常,为了执行自然语言查询,需要数据模型、该数据模型上的标准数据查询语言以及将自然语言查询翻译成标准数据查询语言的方法。标准数据查询语言也可被标记为机器数据查询语言。
用于表示知识的最常见的数据结构是知识图。知识图包括表示实体的节点和节点之间的链路,这些节点可表示事实或关系。
在过去的几十年中,已经设计了几种不同类型的标准数据查询语言,以便查询这些知识图。这样的查询语言的示例是SPARQL、Cypher(neo4j)和Gremlin(ApacheTinkerpopTM)。
这些查询语言的共同之处在于,通常需要由有限的一组低级操作原语组成查询。定义这样的查询通常需要查询语言及其语法的详细知识,这降低了它们的适用范围。
另一种方法是使用机器学习技术来开始将自然语言查询翻译成格式或机器数据查询语言。这样的方法有将标准答案(ground-truth)作为训练数据的需要。
因此,本领域需要解决上述问题。
发明内容
从第一方面来看,本发明提供了一种用于生成自然语言查询的标准答案(ground-truth)的计算机实现的方法,所述方法包括:提供知识图作为数据模型;从用户接收自然语言查询;将所述自然语言查询翻译成标准数据查询;将所述标准数据查询可视化给所述用户;从所述用户接收反馈响应,所述反馈响应包括经验证的和/或经编辑的标准数据查询;以及将所述自然语言查询和对应的所述反馈响应存储为标准答案对(ground-truthpair)。
从另一方面来看,本发明提供了一种用于执行计算机实现的方法的计算机系统,该计算机实现的方法用于生成自然语言查询的标准答案(ground-truth),所述系统包括处理单元、存储系统和用户界面,所述用户界面包括输入单元和显示器,所述系统被配置为:将知识图作为数据模型存储在所述存储系统中;经由所述用户界面接收自然语言查询;将所述自然语言查询翻译成标准数据查询;在该显示器上可视化该标准数据查询;经由该输入单元接收来自用户的反馈响应,该反馈响应包括经验证的和/或经编辑的标准数据查询;以及将所述自然语言查询和对应的所述反馈响应作为标准答案对(ground-truth pair)存储在所述存储系统中。
从另一方面来看,本发明提供了一种用于执行计算机实现的方法的计算机程序产品,该计算机实现的方法用于生成自然语言查询的标准答案(ground-truth),所述计算机程序产品包括计算机可读存储介质,所述计算机可读存储介质可由处理电路读取并且存储用于由所述处理电路执行以便执行用于执行本发明的步骤的方法的指令。
从另一方面来看,本发明提供了一种存储在计算机可读介质上并且可加载到数字计算机的内部存储器中的计算机程序,所述计算机程序包括软件代码部分,当所述程序在计算机上运行时,所述软件代码部分用于执行本发明的步骤。
从另一方面来看,本发明提供了一种包括显示器和输入单元的用户界面,该用户界面被配置为:从用户接收自然语言查询;将所述自然语言查询提供给翻译模块;从所述翻译模块接收标准数据查询,所述标准数据查询是所述自然语言查询在正式语言中的翻译;在所述显示器上可视化所述标准数据查询;从所述用户接收反馈响应,所述反馈响应包括经验证的和/或经编辑的标准数据查询;以及将所述自然语言查询和所述对应的反馈响应提供为标准答案对(ground-truth pair)。
根据第一方面,本发明体现为用于生成用于自然语言查询的标准答案(ground-truth)的计算机实现的方法。该方法包括提供知识图作为数据模型、从用户接收自然语言查询以及将自然语言查询翻译成标准数据查询的步骤。该方法还包括向用户可视化标准数据查询以及从用户接收反馈响应的步骤。反馈响应包括经验证的和/或经编辑的标准数据查询。该方法包括将自然语言查询和对应的反馈响应存储为标准答案对(ground-truthpair)的进一步步骤。
根据本发明的实施例的此类方法可用于以高效的方式在知识图上生成自然语言查询标准答案(ground-truth)。根据本发明的实施例的方法使用视觉编程方法来生成自然语言查询标准答案(ground-truth)。更具体地,以视觉形式向用户提供已经从自然语言查询翻译的标准数据查询。标准答案(ground-truth)被成对地提供,包括自然语言查询输入和对应的反馈响应。反馈响应一方面可以是经验证的标准数据查询。这样的经验证的标准数据查询指示相应用户已确认可视化的标准数据查询是正确的或换言之与其对自然语言查询的意图或理解相对应。另一方面,反馈响应可以是经编辑的标准数据查询,特别是校正的标准数据查询。在这样的经编辑的标准数据查询中,如果可视化的标准数据查询不正确或不对应于其对自然语言查询的意图或理解,则用户可编辑、修改和/或纠正可视化的标准数据查询。
根据各实施例,标准数据查询应被理解为具有标准或机器数据查询语言的格式或形式的数据查询。所以,标准数据查询也可以被标记为机器数据查询。查询语言或数据查询语言(DQL)通常可以被定义为可以用于在数据库和信息系统中进行查询的计算机语言。与自然语言查询相反,它们被设计为向数据库和信息系统传送指令,并且它们通常由一组操作符或操作原语组成。
根据本发明的实施例,将自然语言查询翻译成标准数据查询包括以下步骤:向工作流程模型提供自然语言查询,并且通过工作流程模型计算作为标准数据查询的工作流程图。
这样的工作流程模型接收自然语言查询作为输入并提供工作流程图作为输出。工作流程图建立工作流程的可视表示,该工作流程已被工作流程模型用于自然语言查询到标准数据查询的相应翻译。工作流程图可特别地体现为有向非循环图。工作流程图可以包括多个运算符或换言之多个操作原语(具体为输入运算符),这些运算符可以具体地执行对特定类型的输入节点、边遍历运算符、节点过滤运算符、节点排名运算符、逻辑运算符(如“AND”和“OR”)以及输出运算符的搜索。
根据本发明的实施例,可以在机器学习算法中使用标准答案对(ground-truthpair)来训练工作流程模型。这种训练改进了工作流程模型以及相应的工作流程模型在经训练的工作流程模型的未来推断阶段中的自然语言查询的翻译和响应。
根据各实施例,格式数据查询可在视觉编程工具中可视化。视觉编程工具可被配置成提供用于测试自然语言查询的测试功能。换言之,用户可输入自然语言查询,并且这些方法提供相应的输出,即自然语言查询的结果以及标准数据查询的视觉表示。
此外,根据各实施例,视觉编程工具可被配置成提供编辑功能以在视觉上编辑标准数据查询。这样的编辑功能提供了可以用于编辑、校正、改变和/或修改可视化的标准数据查询的编辑工具。
根据各实施例,将自然语言查询翻译成标准数据查询可包括标识自然语言查询中的知识图的一个或多个输入节点类型的步骤和标识自然语言查询中的知识图的一个或多个输出节点类型的步骤。根据各实施例,该方法可包括计算在一个或多个输入节点类型与一个或多个输出节点类型之间通过知识图形的一个或多个搜索路径的步骤。可以根据实施例通过广度优先搜索算法来执行对一个或多个搜索路径的计算。
根据各实施例,计算一条或多条搜索路径包括步骤:将该自然语言查询作为字符串输入提供给自然语言分类器,以及由该自然语言分类器计算该一个或多个输入节点类型和该一个或多个输出节点类型。使用这样的自然语言分类器是有效且可靠的方法。
根据另一方面,本发明体现为一种用于执行计算机实现的方法的计算机系统,该计算机实现的方法用于生成自然语言查询的标准答案(ground-truth)。该系统包括处理单元、存储系统和用户界面,该用户界面包括输入单元和显示器。该系统被配置成将知识图作为数据模型存储在存储系统中,经由用户界面接收自然语言查询并将该自然语言查询翻译成标准数据查询。该系统进一步被配置为将标准数据查询在显示器上可视化,并且经由输入单元接收来自用户的反馈响应。反馈响应包括经验证的和/或经编辑的标准数据查询。该系统被进一步配置成将该自然语言查询和该对应的反馈响应作为标准答案对(ground-truth pair)存储在该存储系统中。
根据本发明的又一方面,提供了一种用于执行计算机实现的方法的计算机程序产品,该计算机实现的方法用于在计算系统上生成自然语言查询的标准答案(ground-truth)。所述计算机程序产品包括计算机可读存储介质,所述计算机可读存储介质具有随其体现的程序指令,所述程序指令可由所述系统执行以使所述系统执行一种方法,所述方法包括:提供知识图作为数据模型,从用户接收自然语言查询,将所述自然语言查询翻译成标准数据查询,将所述标准数据查询可视化给所述用户,从所述用户接收反馈响应,以及将所述自然语言查询和所述相应的反馈响应提供为标准答案对(ground-truth pair)。
根据本发明的另一方面,提供了一种包括显示器和输入单元的用户界面。用户界面被配置为从用户接收自然语言查询,向翻译模块提供自然语言查询以及从翻译模块接收标准数据查询。标准数据查询是自然语言查询在正式语言中的翻译。该用户界面被进一步配置成在显示器上可视化标准数据查询,接收来自用户的反馈响应,以及提供自然语言查询和对应的反馈响应作为标准答案对(ground-truth pair)。
下面将参考附图通过说明性和非限制性实例的方式更详细地描述本发明的实施例。
附图说明
现在将参考如在以下附图中展示的优选实施例仅通过举例来描述本发明:
图1示出了根据本发明实施例的计算机系统的示意性框图;
图2示出了说明用于执行计算机实现的方法的计算机系统的功能块的功能框图,该计算机实现的方法用于生成自然语言查询的标准答案(ground-truth);
图3示出了根据本发明的实施例的用于生成自然语言查询的标准答案(ground-truth)的计算机实现的方法的方法步骤的流程图;
图4a示出了被用作自然语言查询的数据模型的示例性知识图;
图4b示出自然语言查询的示例;
图4c示出了图4a的知识图如何用于将自然语言查询翻译成标准数据查询;
图4d示出了包括工作流程图的屏幕布局;
图4e示出了包括经编辑的工作流程图形的屏幕布局;
图5a示出了另一个示例性知识图;
图5b示出自然语言查询的示例;
图5c示出了用于将自然语言查询翻译成标准数据查询的图5a的知识图的使用;
图5d示出了包括工作流程图的屏幕布局;以及
图5e示出了包括经编辑的工作流程图形的屏幕布局。
具体实施方式
参考图1至图5e,描述了本发明的实施例的一些一般方面和术语。
本发明的实施例提供一种计算机实现的方法,用于以有效的方式生成用于自然语言查询的标准答案(ground-truth)。
术语“地面实况”一般可以指通过直接观察(即,经验证据)提供的信息,而不是通过推断提供的信息。
根据本发明的实施例的图是包括多个节点和节点之间的多条边的知识表示系统。因此,图形可以体现为知识图形。多个节点可以具有各种节点类型。多个节点可以保持关于信息项的信息。多条边指定节点之间的某些关系。
更具体地,图或知识图KG的实例化是三元组的集合:KG{V,E},其中集合V包含具有来自允许的类型集合的类型的多个节点。集合E包含来自链接来自边缘类型列表的边缘,所述边缘类型列表链接来自集合V的节点对。KG的基础数学结构是有向或无向图{V,E},其中节点和边的类型可以由数字加权方案表示。
知识图到目前为止是最通用的数据模型,因为它们不需要任何类型的数据方案并且在改变、更新等方面是非常灵活的。
本发明的实施例允许用户进行增强功能的自然语言查询。更具体地,用户不仅可以看到相应自然语言查询的响应,而且可以在导致那些响应的知识图上看到、检查和手动编辑内部工作流程。这生成了可以用来改进对未来查询的响应的标准答案(ground-truth)。
现在参见图1,示出了计算机系统100的框图。计算机系统100可被配置成执行用于生成自然语言查询的标准答案(ground-truth)的计算机实现的方法。计算机系统100可以与许多其他通用或专用计算系统环境或配置一起操作。可以适合于与计算机系统100一起使用的众所周知的计算系统、环境和/或配置的示例包括,但不限于个人计算机系统、服务器计算机系统、瘦客户机、厚客户机,手持式或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品,网络PC、小型计算机系统、大型计算机系统和包括任何上述系统或设备的分布式云计算环境,等等。
计算机系统100可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般上下文中描述。一般而言,程序模块可包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。计算机系统100以通用计算设备的形式示出。计算机系统100的组件可以包括但不限于一个或多个处理器或处理单元116、系统存储器128、以及将包括系统存储器128的不同系统组件耦合到处理器116的总线118。
总线118表示若干类型的总线结构中的任一种总线结构中的一种或多种,包括存储器总线或存储器控制器、外围总线、加速图形端口、以及使用各种总线架构中的任一种的处理器或局部总线。作为示例而非限制,此类架构包括工业标准架构(ISA)总线、微通道架构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线和外围组件互连(PCI)总线。
计算机系统100通常包括各种计算机系统可读介质。这样的介质可以是可由计算机系统100访问的任何可用介质,并且它包括易失性和非易失性介质、可移动和不可移动介质两者。
系统存储器128可包括易失性存储器形式的计算机系统可读介质,诸如随机存取存储器(RAM)130和/或高速缓存存储器132。计算机系统100可以进一步包括其他可移动/不可移动、易失性/非易失性计算机系统存储介质。仅通过举例的方式,可以提供存储系统134用于从不可移动、非易失性磁介质(未示出,并且通常被称为“硬盘驱动器”)读取和向其写入。尽管未示出,可以提供用于读写可移动非易失性磁盘(例如,“软盘”)的磁盘驱动器以及用于读写诸如CD-ROM、DVD-ROM或其他光学介质之类的可移动非易失性光盘的光盘驱动器。在这样的实例中,每一个都可以通过一个或多个数据介质接口连接到总线118。如下面将进一步描绘和描述的,存储器128可以包括具有被配置为执行本发明的实施例的功能的程序模块的集合(例如,至少一个)的至少一个程序产品。
具有一组(至少一个)程序模块142的程序/实用工具140,以及操作系统、一个或多个应用程序、其他程序模块和程序数据,可以通过示例而非限制的方式存储在存储器128中。程序模块142可以包含翻译模块142a和训练模块142b。操作系统、一个或多个应用程序、其他程序模块和程序数据中的每一者或其某一组合可包含联网环境的实施例。程序模块142总体上执行在此描述的本发明的实施例的功能和/或方法。程序模块142可以具体执行计算机实现的方法的一个或多个步骤,该方法用于生成例如自然语言查询的标准答案(ground-truth)。如下所述的方法的一个或多个步骤。
计算机系统100还可以与一个或多个外部设备115通信,诸如输入单元125、指示设备、显示器124等;使得用户能够与计算机系统100交互的一个或多个设备;和/或使得计算机系统100能够与一个或多个其他计算设备通信的任何设备(例如,网卡、调制解调器等)。这样的通信可以经由输入/输出(I/O)接口122发生。此外,计算机系统100可以经由网络适配器120与诸如局域网(LAN)、通用广域网(WAN)和/或公共网络(例如,互联网)之类的一个或多个网络通信。如图所示,网络适配器120通过总线118与计算机系统100的其他部件通信。应当理解,虽然未示出,但是其他硬件和/或软件组件可以与计算机系统100结合使用。示例包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动器阵列、RAID系统、磁带驱动器和数据归档存储系统等。输入单元125(例如,键盘)和显示器124建立用户界面126。
图2示出了功能框图,展示了用于执行计算机实现的用于生成自然语言查询的标准答案(ground-truth)的方法的计算机系统200的功能块。
系统200被配置成接收自然语言查询210作为输入,例如。用户经由输入单元,例如,如图1所示的输入单元125。
自然语言查询210然后作为输入被馈送到工作流程模型220。工作流程模型220将自然语言查询210翻译成标准数据查询。更具体地,它将工作流程图230计算为标准数据查询。然后,工作流程图被显示给用户,并且用户可以提供经编辑的工作流程图240作为反馈响应。自然语言查询210和对应的编辑工作流程图240一起形成标准答案对(ground-truthpair)250。随后,标准答案对(ground-truth pair)250可由机器学习算法260使用来更新和改进工作流程模型220。
图3示出了根据本发明的实施例的用于生成用于自然语言查询的标准答案(ground-truth)的计算机实现方法的方法步骤的流程图。该方法可以例如通过图1的系统100来执行,并且因此将在下文中参见图1的系统的部件来描述。该方法可以特别地在运行在系统100上的翻译模块142a的控制下执行。
在步骤310,知识图被提供为数据模型。知识图可被存储在例如计算系统100的存储系统134中。
在步骤320,从计算系统100的用户接收自然语言查询(NLQ),例如。经由输入单元125。
在步骤330,在所接收的自然语言查询中以计算方式识别一个或多个输入节点类型和一个或多个输出节点类型。这可特别地通过将自然语言查询作为字符串输入提供给自然语言分类器来执行。自然语言分类器可随后计算一个或多个输入节点类型和一个或多个输出节点类型。自然语言分类器可以使用例如串分类方法和/或序列对序列模型。
在步骤340,将所识别的输入节点和输出节点馈送到工作流程模型。
在步骤350,工作流程模型计算工作流程图。工作流程图建立自然语言查询的正式或机器数据查询。
因此,步骤330至350执行将所接收的自然语言查询翻译成体现为工作流程图形的格式数据查询。
在步骤360,例如通过在计算系统100的显示器124上显示工作流程图来向用户可视化工作流程图。
然后,用户可以在视觉上检查和检查所显示的工作流程图。具体地,用户可检查工作流程图和结果是否对应于他所希望的自然语言查询的含义和意图。
在步骤370处,用户然后可以编辑工作流程图并且从而以反馈响应的形式向系统100提供反馈,例如。经由输入单元125。反馈响应可以特别地包括编辑的工作流图。
在步骤380,系统100可以将反馈响应(特别是工作流程图的编辑和对应的自然语言查询)存储为标准答案对(ground-truth pairs)。标准答案对(ground-truth pairs)可存储在例如计算系统100的存储系统134中。
然后,可在步骤390处使用该标准答案对(ground-truth pair)来训练或重新训练工作流程模型,以改进系统100的响应以用于未来的自然语言查询。
图4a至4e示出了根据本发明的实施方式的用于生成自然语言查询的标准答案(ground-truth)的计算机实现方法的实例。
图4a示出用作自然语言查询的数据模型的知识图401。根据所示示例,知识图401包括四个节点1、2、3和4、节点1和2之间的边12、节点1和4之间的边14、节点1和3之间的边13和节点2和3之间的边23。节点和边已被分组为不同类型,即,知识图401具有一组某种类型的节点和边。更具体地,图4a表示“引证图”并且包括以下类型的节点:文章、作者、主题和从属关系。该图的边也具有某种类型,即“文章到文章”、“文章到作者”、“文章到主题”和“附属于作者”。所以,知识图401体现为包括节点类型文章、作者、主题和从属关系以及边类型“文章到文章”、“文章到作者”、“文章到主题”、“作者到主题”和“作者到从属关系”的元图。
根据实施例,这样的元图形可以被表示为原始知识图形的拓扑,其中原始知识图形是从其导出元图形的知识图形。只要没有新类型的节点被插入到知识图谱中,拓扑以及因此原始知识图谱的元图谱就不改变。人们可以将更多的文档插入到知识图谱中,而不改变元图谱的拓扑结构,即在该引证图的实施例中。
通常,几乎所有的知识图都可以通过这样的拓扑或元图来描述,只要知识图中的节点和边中的每一个表示某种概念或类型。
图4b示出自然语言查询的示例。在这个实例中,自然语言查询读取如下:“谁是A公司人工智能(AI)领域的专家”?
图4c示出了图4a的元图形如何用于将自然语言查询402翻译成标准数据查询。该方法将节点2(主题)和节点4(从属关系)标识为自然语言查询402中的输入节点并且将节点1(作者)标识为自然语言查询402中的知识图401的输出节点类型。用波形图说明所识别的输入节点类型,且用棋盘图案说明所识别的输出节点类型。可通过提供自然语言查询402作为到自然语言分类器的字符串输入来识别输入节点类型和输出节点类型。自然语言分类器可随后从自然语言查询串402计算输入节点类型和输出节点类型。
此外,计算系统100计算输入节点类型和输出节点类型之间的搜索路径。在本示例中,在类型“主题”的节点2与类型“作者”的节点1之间计算搜索路径410,并且在类型“从属关系”的节点4与类型“作者”的节点1之间计算搜索路径411。
图4d示出了可以例如由图1的显示器124显示的屏幕布局403。屏幕布局403包括被体现为有向非循环图的工作流程图420。工作流程图420表示标准数据查询,该标准数据查询已由例如翻译模块翻译或换言之从自然语言查询402导出。通过图1的平移模块142a。翻译模块使用底层工作流程模型来计算工作流程图420。工作流程图420可以包括多个操作者或操作原语。这样的运算符可包括例如输入运算符,该输入运算符可特别地执行对特定类型的输入节点的搜索。其他运算符包括可以在两个不同类型的节点之间执行边遍历的边遍历运算符、根据一个或多个准则来过滤节点的节点过滤运算符以及根据一个或多个预定义准则来对节点进行排名的节点排名运算符。作为进一步的示例,可以使用逻辑运算符(如“AND”和“OR”)以及输出运算符。
工作流程图420包括输入操作符431,该输入操作符提供“输入附属”INA并且在具有类型“附属”的所有输入类型节点中执行对“公司A”的搜索。工作流程图420包括另一个输入操作符432,该输入操作符提供“输入主题”INT并且在具有类型“主题”的所有输入类型节点中执行对“人工智能”的搜索。工作流程图420包括边遍历算子433,该算子在包括术语“公司A”的类型“附属”的所标识的节点与类型“作者”的相应节点之间执行边遍历ETAA“附属-作者”。工作流程图420包括另一个边遍历算子434,该算子在包括术语“人工智能”的类型“主题”的所标识的节点与类型“作者”的相应节点之间执行边遍历ETTA“主题-作者”。然后,“与”运算符435合并边遍历运算符433和边遍历运算符434的输出,即“与”运算符435执行边遍历运算符433和边遍历运算符434的输出的相与。然后,输出操作器435产生自然语言查询402的结果440并将其显示在屏幕布局403上。在这个实例中,结果440包括作者的列表“作者1、作者2、作者3”。根据该示例,假设工作流程模型以作者列表的形式以字母表方式示出结果。
视觉编程工具提供编辑功能以在视觉上编辑标准数据查询。在图4d中,工具处于由表示编辑按钮450的术语“编辑”的粗体图示指示的编辑模式中。这意味着用户可以编辑工作流程图420,特别是通过删除、修改或添加工作流程图420的一个或多个操作者来编辑工作流程图420。
图4e示出了包括编辑工作流程图421的屏幕布局404。工作流程图421表示在用户已经检查原始工作流程图420之后已经由用户编辑的已编辑的标准数据查询。与原始工作流程图420相比,用户已经插入了排序运算符437。排序运算符437可以是例如根据引用数量对结果(作者)进行排序的运算符。因此,用户并不完全满意以字母顺序排列的结果440,而是优选根据引证的数量进行排名。视觉编程工具提供测试自然语言查询的测试功能。因此,用户然后可以通过激活搜索按钮451来测试经编辑的工作流程图421。在激活时,屏幕布局示出了包括作者“作者3、作者2、作者1”的修改结果441,这些作者按照引用数量排序。
计算机系统100然后可将自然语言查询402连同编辑的工作流图421(标准数据查询)一起作为标准答案对(ground-truth pairs)存储在存储系统134中。此标准答案对(ground-truth pair)(优选地与多个其他标准答案对(ground-truth pair)组合)可接着由训练模块142b使用以训练翻译模块142a。并且如果计算系统100下次接收到类似的查询,则其将提供例如作者以分级的方式排列的结果列表。
图5a至5e示出了根据本发明另一实施例的用于生成自然语言查询的标准答案(ground-truth)的计算机实现的方法的示例。图5a至5e的实例部分地对应于图4a至4e的实例,并且因此相同或相似的元件用相同的参考数字表示。
图5a示出用作自然语言查询的另一数据模型的知识图501。根据所示示例,知识图501包括四个节点1、2、3和5,节点1和2之间的边12,节点1和3之间的边13,节点2和3之间的边23,并且与图4a相比,节点3和5之间的边35。节点和边已被分组为不同类型,即,知识图501具有一组某种类型的节点和边。更具体地,图5a还表示“引证图”并且包括与图4a的示例中相同的类型“文章”、“作者”、“主题”和“附属”的节点。该图的边还涵盖类型“文章到文章”、“文章到作者”、“文章到主题”、“作者到主题”,但边35“文章到从属关系”代替“作者到从属关系”。
所以,知识图501还体现为表示原始图的拓扑的元图。
图5b示出自然语言查询502的示例。在这个实例中,使用与先前实例中相同的自然语言查询,即“谁是A公司人工智能(AI)领域的专家”?
图5c示出了图5a的元图形如何用于将自然语言查询502翻译成标准数据查询。该方法将节点2(主题)和节点5(联合)标识为自然语言查询502中的输入节点并且将节点1(作者)标识为输出节点类型。用波形图说明所识别的输入节点类型,且用棋盘图案说明所识别的输出节点类型。计算系统100计算输入节点类型和输出节点类型之间的搜索路径。在本示例中,经由类型“文章”的节点3计算类型“主题”的节点2与类型“作者”的节点1之间的搜索路径510以及类型“附属”的节点5与类型“作者”的节点1之间的搜索路径511。
图5d示出了可以例如由图1的显示器124显示的屏幕布局503。屏幕布局503包括工作流程图520,工作流程图520体现为有向非循环图。工作流程图520表示标准数据查询,该标准数据查询已由例如翻译模块翻译或换言之从自然语言查询502导出。通过图1的平移模块142a。翻译模块使用底层工作流程模型来计算工作流图520。工作流程图520包括输入操作符531,该输入操作符在具有类型“附属”的所有输入类型节点中执行对“公司A”的搜索。工作流程图520包括另一个输入操作符532,该输入操作符在具有类型“主题”的所有输入类型节点中执行对“人工智能”的搜索。工作流程图520包括边遍历算子533,该算子在包括术语“公司A”的类型“附属”的所识别节点与类型“文章”的相应节点之间执行边遍历“附属-文章”。工作流程图520包括另一个边遍历算子534,该算子在包括术语“人工智能”的类型“主题”的所识别节点与类型“文章”的相应节点之间执行边遍历“主题-文章”。然后,“与”运算符535合并边遍历运算符533和边遍历运算符534的输出,即“与”运算符535执行边遍历运算符533和边遍历运算符534的输出的相与。在本示例中,提供了执行边遍历ETAA“文章作者”的附加边遍历运算符536。然后,输出操作器537产生自然语言查询502的结果540并将其显示在屏幕布局503上。在本示例中,结果540包括作者的列表“作者1、作者2、作者3”。根据该示例,假设工作流程模型以以字母表方式示出作者列表结果。
在图5d中,视觉编程工具再次处于编辑模式,其由编辑按钮/字段550的术语“编辑模式”的粗体图示指示。这意味着用户可以编辑工作流程图520。
图5e示出了包括经编辑的工作流程图521的屏幕布局504。工作流程图521表示在用户已经检查原始工作流程图520之后已经由用户编辑的已编辑的标准数据查询。与原始工作流程图520相比,用户已经插入了排序运算符538。排序运算器538被配置为根据引证的数量对结果(作者)进行排序。视觉编程工具提供测试自然语言查询的测试功能。因此,用户然后可以通过激活搜索按钮551来测试经编辑的工作流程图521。在激活时,屏幕布局504示出了包括作者“作者3、作者2、作者1”的修改结果541,这些作者按照引用数量排序。
计算机系统100然后可将自然语言查询502与工作流程图521(标准数据查询)一起作为标准答案对(ground-truth pair)存储在存储系统134中。此标准答案对(ground-truth pair)(优选地与多个其他标准答案对(ground-truth pair)组合)可接着由训练模块142b使用以训练翻译模块142a。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可包括其上具有计算机可读程序指令的计算机可读存储介质(或多个介质),所述计算机可读程序指令用于使计算机系统100的处理器/处理单元执行本发明的各方面。
计算机可读存储介质可以是可以保留和存储指令以供指令执行设备使用的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述各项的任何合适的组合。计算机可读存储介质的更具体例子的非穷举列表包括以下:便携式计算机盘,硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存),静态随机存取存储器(SRAM)、便携式致密盘只读存储器(CD-ROM),数字通用盘(DVD)、记忆棒、软盘、机械编码设备(诸如穿孔卡片)或具有记录在其上的指令的凹槽中的凸起结构),以及上述的任意合适的组合。如本文中所使用的计算机可读存储介质不应被解释为瞬态信号本身,诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,通过光纤电缆的光脉冲)、或通过导线传输的电信号。
本文所述的计算机可读程序指令可从计算机可读存储介质下载到相应的计算/处理设备,或经由网络(例如,互联网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令,并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
用于执行本发明的操作的计算机可读程序指令可以是汇编指令,指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据,或者以一种或多种编程语言的任意组合编写的源代码或目标代码,包括面向对象的Smalltalk、C++等编程语言,以及常规的过程式编程语言,例如“C”编程语言或类似的编程语言。计算机可读程序指令可完全在用户”的计算机上执行、部分在用户”的计算机上执行、作为独立软件包执行、部分在用户”的计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中,远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机,或者可以连接到外部计算机(例如,通过使用互联网服务提供商的互联网)。在一些实施例中,电子电路(包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA))可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化,以便执行本发明的方面。
本文中参考根据本发明的实施例的方法、设备(系统)和计算机程序产品的流程图说明和/或框图描述本发明的方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令来实现。
这些计算机可读程序指令可以被提供给通用计算机的处理器,专用计算机或其他可编程数据处理装置,以产生机器,其通过计算机或其他可编程数据处理装置的处理器执行,创建用于实现在流程图和/或方框图的一个或多个方框中指定的功能/动作的装置。这些计算机可读程序指令还可存储在可指导计算机的计算机可读存储介质中,可编程数据处理装置,和/或以特定方式起作用的其他设备,使得具有存储在其中的指令的计算机可读存储介质包括制品,该制品包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各方面的指令。
计算机可读程序指令还可以加载到计算机、其他可编程数据处理装置上,或使得在计算机上执行一系列操作步骤的其他装置,其他可编程装置或其他设备,以产生计算机实现的过程,使得在计算机上执行的指令,其他可编程装置或其他设备实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图图示了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。对此,流程图或框图中的每个方框可以代表模块、段或指令的一部分,其包括用于实现规定的逻辑功能的一个或多个可执行指令。在一些替代实现方式中,框中所标注的功能可以不以图中所标注的顺序发生。例如,取决于所涉及的功能,连续示出的两个框实际上可以基本上同时执行,或者这些框有时可以以相反的顺序执行。还将注意的是,框图和/或流程图中的每个框、以及框图和/或流程图中的框的组合可以由基于专用硬件的系统来实现,所述基于专用硬件的系统执行指定的功能或动作或执行专用硬件与计算机指令的组合。
已经出于说明的目的呈现了本发明的不同实施例的描述,但并不旨在是穷尽性的或局限于所披露的实施例。在不脱离所描述的实施例的范围的情况下,许多修改和变化对本领域的普通技术人员而言将是显而易见的。选择在此使用的术语以最佳地解释实施例的原理、实际应用或在市场上找到的技术上的技术改进,或使得本领域普通技术人员能够理解在此披露的实施例。

Claims (23)

1.一种用于为自然语言查询生成标准答案的计算机实现方法,所述方法包括:
提供知识图作为数据模型;
从用户接收自然语言查询;
将所述自然语言查询翻译成标准数据查询;
将所述标准数据查询可视化给所述用户;
从所述用户接收反馈响应,所述反馈响应包括经验证的和/或经编辑的标准数据查询;以及
将所述自然语言查询和对应的所述反馈响应存储为标准答案对。
2.根据权利要求1所述的计算机实现方法,其中,将所述自然语言查询翻译成标准数据查询包括:
将所述自然语言查询提供给工作流程模型;以及
由所述工作流程模型将工作流程图计算为标准数据查询。
3.根据权利要求2所述的计算机实现方法,进一步包括:
在机器学习算法中使用所述标准答案对来训练所述工作流程模型。
4.根据权利要求2所述的计算机实现方法,其中所述工作流程图是有向非循环图。
5.根据权利要求2所述的计算机实施方法,其中所述工作流程图包括多个算子。
6.根据权利要求5所述的计算机实现方法,其中,所述多个算子选自由以下组成的组:
输入算子;
边遍历算子;
节点过滤算子;
节点排序算子;
逻辑算子;以及
输出算子。
7.根据前述权利要求中任一项所述的计算机实现方法,其中,将所述自然语言查询翻译成标准数据查询包括:
识别所述自然语言查询中的所述知识图的一个或多个输入节点类型;以及
识别所述自然语言查询中的所述知识图的一个或多个输出节点类型。
8.根据权利要求7所述的计算机实现方法,其中,将所述自然语言查询翻译成标准数据查询包括:
计算在所述一个或多个输入节点类型与所述一个或多个输出节点类型之间通过所述知识图的一个或多个检索路径。
9.根据权利要求8所述的计算机实现方法,其中,计算所述一个或多个检索路径包括执行广度优先检索算法。
10.根据权利要求7所述的计算机实现方法,其中,计算所述一个或多个检索路径包括:
将所述自然语言查询作为字符串输入提供给自然语言分类器;以及
由所述自然语言分类器计算所述一个或多个输入节点类型和所述一个或多个输出节点类型。
11.根据前述权利要求中任一项所述的计算机实现方法,其中,可视化所述标准数据查询包括:
在可视编程工具中可视化所述标准数据查询。
12.根据权利要求11所述的计算机实现方法,其中,所述可视编程工具被配置为提供用于测试所述自然语言查询的测试功能。
13.根据权利要求11所述的计算机实现方法,其中,所述可视编程工具被配置为提供编辑功能以在视觉上编辑所述标准数据查询。
14.一种用于执行用于生成自然语言查询的标准答案的计算机实现方法的计算机系统,所述系统包括处理单元、存储系统和用户界面,所述用户界面包括输入单元和显示器,所述系统被配置为:
将知识图作为数据模型存储在存储系统中;
经由所述用户界面接收自然语言查询;
将所述自然语言查询翻译成标准数据查询;
在所述显示器上可视化所述标准数据查询;
经由所述输入单元从用户接收反馈响应,所述反馈响应包括经验证的和/或经编辑的标准数据查询;以及
将所述自然语言查询和对应的所述反馈响应作为标准答案对存储在所述存储系统中。
15.根据权利要求14所述的计算机系统,所述系统包括:
翻译模块,被配置为将所述自然语言查询翻译成所述标准数据查询,所述翻译模块包括工作流程模型;
训练模块,被配置为:
接收所述标准答案对;
通过机器学习算法对工作流程模型进行训练;
更新所述工作流程模型。
16.根据权利要求15所述的计算机系统,其中,所述转换模块被配置为:
识别所述自然语言查询中的所述知识图的输入节点类型;
识别所述自然语言查询中的所述知识图的输出节点类型;以及
将工作流程图计算为标准数据查询。
17.根据权利要求16所述的计算机系统,其中所述工作流程图是有向非循环图。
18.一种用于执行计算机实现的方法的计算机程序产品,所述计算机实现方法用于在计算系统上生成自然语言查询的标准答案,所述计算机程序产品包括:
计算机可读存储介质,所述计算机可读存储介质由处理电路可读并且存储用于由所述处理电路执行以便执行根据权利要求1至13中任一项所述的方法的指令。
19.一种计算机程序,存储在计算机可读介质上并且可加载到数字计算机的内部存储器中,所述计算机程序包括软件代码部分,当所述程序在计算机上运行时,所述软件代码部分用于执行如权利要求1至13中任一项所述的方法。
20.一种包括显示器和输入单元的用户界面,所述用户界面被配置为:
从用户接收自然语言查询;
将所述自然语言查询提供给翻译模块;
从所述翻译模块接收标准数据查询,所述标准数据查询是所述自然语言查询在标准语言中的翻译;
在所述显示器上可视化所述标准数据查询;
从所述用户接收反馈响应,所述反馈响应包括经验证的和/或经编辑的标准数据查询;以及
将所述自然语言查询和对应的所述反馈响应提供为标准答案对。
21.根据权利要求20所述的用户界面,其中,可视化所述标准数据查询包括:
将工作流程图显示为标准数据查询。
22.根据权利要求21所述的用户界面,其中,该用户界面被配置为提供用于测试该自然语言查询的测试功能。
23.根据权利要求21或22之一所述的用户界面,其中该用户界面被配置为提供编辑功能以可视地编辑该工作流程图。
CN202080034971.1A 2019-06-20 2020-06-16 将自然语言查询翻译成标准数据查询 Pending CN113811869A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/446,809 2019-06-20
US16/446,809 US11086861B2 (en) 2019-06-20 2019-06-20 Translating a natural language query into a formal data query
PCT/IB2020/055618 WO2020254962A1 (en) 2019-06-20 2020-06-16 Translating a natural language query into a formal data query

Publications (1)

Publication Number Publication Date
CN113811869A true CN113811869A (zh) 2021-12-17

Family

ID=74038547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080034971.1A Pending CN113811869A (zh) 2019-06-20 2020-06-16 将自然语言查询翻译成标准数据查询

Country Status (6)

Country Link
US (1) US11086861B2 (zh)
JP (1) JP2022536889A (zh)
CN (1) CN113811869A (zh)
DE (1) DE112020002961T5 (zh)
GB (1) GB2599328A (zh)
WO (1) WO2020254962A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021072321A1 (en) * 2019-10-11 2021-04-15 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for generating knowledge graphs and text summaries from document databases
US11861308B2 (en) * 2020-04-15 2024-01-02 Intuit Inc. Mapping natural language utterances to operations over a knowledge graph
US11423094B2 (en) * 2020-06-09 2022-08-23 International Business Machines Corporation Document risk analysis
US11604794B1 (en) 2021-03-31 2023-03-14 Amazon Technologies, Inc. Interactive assistance for executing natural language queries to data sets
US11500865B1 (en) 2021-03-31 2022-11-15 Amazon Technologies, Inc. Multiple stage filtering for natural language query processing pipelines
US11726994B1 (en) * 2021-03-31 2023-08-15 Amazon Technologies, Inc. Providing query restatements for explaining natural language query results
US20230368103A1 (en) * 2022-05-11 2023-11-16 Sap Se Knowledge graph enabled augmentation of natural language processing applications

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5265014A (en) * 1990-04-10 1993-11-23 Hewlett-Packard Company Multi-modal user interface
US5911138A (en) * 1993-06-04 1999-06-08 International Business Machines Corporation Database search facility having improved user interface
US7730063B2 (en) 2002-12-10 2010-06-01 Asset Trust, Inc. Personalized medicine service
US7640162B2 (en) * 2004-12-14 2009-12-29 Microsoft Corporation Semantic canvas
US8548799B2 (en) * 2005-08-10 2013-10-01 Microsoft Corporation Methods and apparatus to help users of a natural language system formulate queries
US10318586B1 (en) * 2014-08-19 2019-06-11 Google Llc Systems and methods for editing and replaying natural language queries
US10380144B2 (en) 2015-06-16 2019-08-13 Business Objects Software, Ltd. Business intelligence (BI) query and answering using full text search and keyword semantics
US20180052842A1 (en) 2016-08-16 2018-02-22 Ebay Inc. Intelligent online personal assistant with natural language understanding
US10503767B2 (en) 2016-09-13 2019-12-10 Microsoft Technology Licensing, Llc Computerized natural language query intent dispatching
US11157564B2 (en) * 2018-03-02 2021-10-26 Thoughtspot, Inc. Natural language question answering systems
CN109241259B (zh) 2018-08-24 2021-01-05 国网江苏省电力有限公司苏州供电分公司 基于er模型的自然语言查询方法、装置及系统
CN109241103A (zh) 2018-09-26 2019-01-18 深圳壹账通智能科技有限公司 数据扩展查询方法、电子装置及计算机可读存储介质

Also Published As

Publication number Publication date
GB2599328A (en) 2022-03-30
WO2020254962A1 (en) 2020-12-24
JP2022536889A (ja) 2022-08-22
US20200401590A1 (en) 2020-12-24
DE112020002961T5 (de) 2022-04-07
US11086861B2 (en) 2021-08-10

Similar Documents

Publication Publication Date Title
US11086861B2 (en) Translating a natural language query into a formal data query
US10884904B2 (en) Automatic cognitive adaptation of development assets according to requirement changes
US11106981B2 (en) System for refining cognitive insights using cognitive graph vectors
US9384450B1 (en) Training machine learning models for open-domain question answering system
US10417581B2 (en) Question answering system-based generation of distractors using machine learning
US10558933B2 (en) Merging feature subsets using graphical representation
CN108121795A (zh) 用户行为预测方法及装置
US11062222B2 (en) Cross-user dashboard behavior analysis and dashboard recommendations
US20190243890A1 (en) Suggesting content for an electronic document based on a user's cognitive context
US20160132300A1 (en) Contraction aware parsing system for domain-specific languages
CN110188205A (zh) 一种智能客服系统知识库的更新方法及装置
Embarak et al. Data analysis and visualization using python
Piasecki et al. WordNetLoom: a WordNet development system integrating form-based and graph-based perspectives
CN116034369A (zh) 利用合规性验证对设计项目数据进行自动功能集群
Kortum et al. Dissection of AI job advertisements: A text mining-based analysis of employee skills in the disciplines computer vision and natural language processing
US10585926B2 (en) Managing structuring of large sets of unstructured data
US20230297784A1 (en) Automated decision modelling from text
US20230111052A1 (en) Self-learning annotations to generate rules to be utilized by rule-based system
Almogahed et al. Optimized refactoring mechanisms to improve quality characteristics in object-oriented systems
CN113870998A (zh) 问诊方法、装置、电子设备和存储介质
Cherednichenko et al. A Reference Model for Collaborative Business Intelligence Virtual Assistants
Bainey AI-Driven Project Management: Harnessing the Power of Artificial Intelligence and ChatGPT to Achieve Peak Productivity and Success
US11301638B2 (en) Holistic knowledge representation for semantic modeling of structured data
Wagner Integrating explicit knowledge in the visual analytics process
US20220414477A1 (en) Explaining a theorem proving model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination