CN110023929A - 用于从知识库进行自动问题生成的系统和方法 - Google Patents

用于从知识库进行自动问题生成的系统和方法 Download PDF

Info

Publication number
CN110023929A
CN110023929A CN201780069055.XA CN201780069055A CN110023929A CN 110023929 A CN110023929 A CN 110023929A CN 201780069055 A CN201780069055 A CN 201780069055A CN 110023929 A CN110023929 A CN 110023929A
Authority
CN
China
Prior art keywords
sentence
knowledge base
scaling
processor
subproblem
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780069055.XA
Other languages
English (en)
Other versions
CN110023929B (zh
Inventor
冯哲
L.宋
L.赵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of CN110023929A publication Critical patent/CN110023929A/zh
Application granted granted Critical
Publication of CN110023929B publication Critical patent/CN110023929B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种从包括多个语句的知识库生成问题数据集的方法,所述方法包括:基于所述多个语句中的所选择的语句的结构生成至少一个问题模板;利用处理器基于所述至少一个问题模板生成针对每个所选择的语句的种子问题;通过经搜索引擎处理种子问题中的每个来利用搜索引擎生成至少一个第一扩展问题;以及将所述至少一个第一扩展问题和种子问题中的至少一个存储在存储器中作为问题数据集。

Description

用于从知识库进行自动问题生成的系统和方法
技术领域
本公开涉及信息系统的领域并且特别地涉及从知识库数据进行自然语言处理、问题生成、以及问题回答。
背景技术
问题生成和回答是计算机科学中的学科,其专注于构建能够为自然语言问题提供自然语言回答的电子数据系统。例如,数据系统可以被配置为利用“一加仑中有八品脱。”的自然语言回答自动地回答自然语言问题:“一加仑中有多少品脱”。在上面的示例中,问题和回答这两者都以人类说话者会用来提问和回答问题的格式呈现,由此使得回答是容易地由提出问题的人可理解的。
在准备用于自然语言问题回答的数据系统当中,生成自然语言问题和回答的数据库。该处理被称为数据采集。数据采集典型地涉及机器学习方法并且要求一定数量的任务相关的数据以用于训练和测试目的。常见的数据采集解决方案是手动地采集数据。例如,众包(crowdsource)是用以经由许多人的在线合作来手动地采集数据的典型方式。然而,众包是耗时的并且如果采集数据的人不是有关主题方面的专家,则有时难以得到具有良好质量的数据。此外,每次想要有导向至不同主题(即,不同域)的数据系统时,就要采集附加的数据并且必须再次生成问题和回答。更进一步地,数据系统的问题和回答典型地被限制于特定的格式、句法和组织。
问题和回答数据系统具有简化人类与电子机器的交互的潜力。然而,用于构建问题和回答数据系统的已知的方法和系统是劳动密集的并且耗时的。至少出于这些原因,想要有在问题和回答数据系统领域中的进一步的发展。
发明内容
根据本公开的示例性实施例,一种从包括多个语句的知识库生成问题数据集的方法包括:基于多个语句中的所选择的语句的结构生成至少一个问题模板;利用处理器基于至少一个问题模板生成针对每个所选择的语句的种子问题;通过经搜索引擎处理种子问题中的每个来利用搜索引擎生成至少一个第一扩展问题;以及将至少一个第一扩展问题和种子问题中的至少一个存储在第一存储器中作为问题数据集。
根据本公开的另一个示例性实施例,用于从具有多个语句的知识库生成问题数据集的问题生成系统包括存储器和远程计算机。远程计算机可操作地连接于知识库和存储器。远程计算机包括被配置为如下的处理器:标识多个语句中的至少一个所选择的语句;使用基于至少一个所选择的语句的结构的至少一个问题模板生成针对每个所选择的语句的种子问题;利用可操作地连接于远程计算机的搜索引擎来从种子问题中的每个中生成至少一个第一扩展问题;以及将至少一个第一扩展问题和种子问题中的至少一个存储在存储器中作为问题数据集。
附图说明
通过参照以下详细的描述和随附各图,在上面描述的特征和优点以及其它特征和优点对于那些本领域普通技术人员而言应当变得更容易地显见,其中:
图1是问题生成和回答系统的框图,所述系统包括用于生成问题数据集的远程计算机和被配置为与远程计算机对接的客户机设备;
图2是来自示例性知识库的语句的绘图,所述示例性知识库由远程计算机使用以生成问题数据集;
图3是描绘生成问题数据集的示例性方法的流程图;以及
图4是图示使用搜索引擎的示例性问题扩展处理的示图。
具体实施方式
出于促进对本公开的原理的理解的目的,现在将参照在附图中图示并且在以下的书面说明中描述的实施例。理解的是,不由此意图限制于本公开的范围。进一步理解的是,本公开包括对图示的实施例的任何替换和修改,并且包括本公开的原理的如本公开所涉及领域的技术人员通常会想到的进一步的应用。
可以在不脱离本公开的精神或者范围的情况下设想本公开的替换实施例及其等同物。应当注意的是在此关于“一个实施例”、“实施例”和“示例性实施例”等的任何讨论指示所描述的实施例可以包括特定特征、结构或者特性,并且这样的特定特征、结构或者特性可以不必被包括在每个实施例中。此外,对前述的引用不必包括对同一实施例的引用。最后,无论是否明确地描述,本领域技术人员将容易地领会给定实施例的特定特征、结构或者特性中的每个可以与在此所讨论的任何其它实施例的那些特定特征、结构或者特性结合使用或者组合使用。
出于本公开的目的,表述“A和/或B”意味着(A)、(B)、或者(A和B)。出于本公开的目的,表述“A、B、和/或C”意味着(A)、(B)、(C)、(A和B)、(A和C)、(B和C)、或者(A、B和C)。
如关于本公开的实施例使用的术语“包括”、“包含”和“具有”等是同义词。
如在图1中示出那样,问题生成和回答系统100包括:被配置用于与蜂窝网络108和互联网112通信的无线设备104;被配置为供应并且存储知识库120的第一数据服务器116;被配置为服务并且存储问题数据集124的第二数据服务器122;包括处理器132和存储用于搜索引擎140的程序指令的存储器136的第一远程计算机128;包括处理器148和存储模板生成软件156、问题生成软件160、问题扩展软件164和交互服务软件168的存储器152的第二远程计算机144。如在下面详细阐述的那样,系统100被配置为从存储在知识库120中的数据自动地生成自然语言种子问题,并且使用搜索引擎140基于种子问题生成扩展问题。生成的问题被存储在问题数据集124中。交互服务软件168被配置为使用问题数据集124回答如从诸如无线设备104的客户机设备接收的许多类型、版本、和结构的自然语言问题。
无线设备104是被配置为经由互联网112将询问(即,问题数据)发送到远程计算机144并且从远程计算机144接收数据(即,回答数据)的示例性客户机设备。设备104包括每个都可操作地连接于处理器188的显示单元172、输入设备176、收发器180、以及存储器184。无线设备104典型地是蜂窝电话、移动电话、智能电话、平板计算机、或者任何其它合适的设备。
显示单元172是被配置为显示文本、图像、以及其它视觉上可理解的数据的液晶显示(LCD)面板。在另一个实施例中,显示单元172是如由那些本领域普通技术人员想要的任何显示器,包括但是不限制于有源矩阵有机发光二极管显示器。
输入设备176被配置为使得用户能够输入数据并且操纵在显示单元172上示出的对象。例如,输入设备176被配置为生成对应于要被发送至远程计算机144的自然语言问题或者其它查询的问题数据。在另一个实施例中,输入设备176是应用在显示单元172上的触摸屏,其被配置为响应于手指或者触控笔的触摸。在又一个实施例中,输入设备176是被配置为生成如由本领域普通技术人员想要的输入信号的任何设备。
收发器180,其也被称为无线发射器和接收器,被配置为与蜂窝网络108、无线局域网络(“Wi-Fi”)、个人局域网络、和/或任何其它无线网络无线地通信。因此,收发器180与任何想要的无线通信标准或者协议兼容,所述无线通信标准或者协议包括但是不限制于:近场通信(“NFC”)、IEEE 802.11、IEEE 802.15.1(“蓝牙®”)、全球移动系统(“GSM”)、和码分多址(“CDMA”)。
存储器184是电子数据存储单元,其在此也被称为非暂态计算机可读介质。如在此阐述的那样,存储器184被配置为存储用于操作无线设备104的程序指令和软件。任何其它电子数据也可以被存储在存储器184中,所述电子数据诸如为经由互联网112从数据服务器116、数据服务器122和远程计算机128、远程计算机144接收的数据。
处理器188被配置为执行存储在存储器184中的程序指令和软件以用于操作与其连接的组件,诸如显示单元172、输入设备176、和收发器180。处理器188被提供为微处理器、控制器、或者任何其它类型的电子控制芯片。在一个实施例中,处理器188执行程序指令(即,软件、应用程序或者“app”),其是从互联网112下载的,并且使得无线设备104能够与远程计算机144电子地通信。例如,用于将问题数据发送至远程计算机144并且用于从远程计算机144接收回答数据的程序指令和/或软件可以从互联网112下载,存储在存储器184中,并且由处理器188执行。
第一数据服务器116可操作地连接于互联网112并且被配置为从互联网112接收要被存储或者添加至知识库120的数据。数据服务器116还被配置为从客户机设备和从远程计算机144接收被导向至知识库120的问题数据。此外,数据服务器116被进一步配置为响应于所接收的数据而将数据发送或者供应至客户机设备和远程计算机128、远程计算机144。例如,数据服务器116被配置为响应于从远程计算机144接收合适的请求而将数据从知识库120发送至远程计算机144。数据服务器116还可以被配置为响应于从远程计算机128或者远程计算机144接收合适的请求而将数据从知识库120发送至远程计算机128。数据服务器116通过互联网112间接地电连接于远程计算机128、远程计算机144;然而,在另外的实施例中,数据服务器116可以直接地电连接于远程计算机128、远程计算机144中的至少一个。更进一步地,在一些实施例中,数据服务器116可以被包括在远程计算机128、远程计算机144中的一个中。
图2描绘存储在数据服务器116中的知识库120的示例性部分。知识库120包括由计算机系统(诸如远程计算机128、远程计算机144以及无线设备104)可搜索的有组织的格式的电子数据。一般来说,包括在知识库120中的电子数据或者是封闭域或者是开放域。封闭域知识库典型地限制于特定主题,诸如例如电动工具。开放域知识库典型地不限制于特定主题。对开放域知识库和封闭域知识库这两者的使用都在快速地增长。此外,在工业中已经存在许多适用于组织成知识库的结构化电子数据集;由此进一步增加可用知识库的数量。
图2的示例性知识库120是封闭域资源描述框架(“RDF”)知识库。该域与电动工具相关。知识库120的每一行在此被称为语句204或者三元组。知识库120的第一列包括语句204的主语表述,知识库120的第二列包括语句204的谓语表述,并且知识库120的第三列包括语句204的宾语表述。第四列包括用于方便地引用语句204的数字并且可以是或者可以不是知识库120的一部分。主语表述指明资源,诸如例如竖锯或者电动螺丝刀。谓语表述指明资源的特点或者方面,并且表达主语和宾语之间的关系。因此,例如,知识库120中的第一语句204指示“竖锯”(主语)被配置为对“曲线切割”(宾语)“执行动作”(谓语)。知识库120中的第十二语句204指示“电动螺丝刀”(主语)被配置为“包括附件”(谓语)“电池组”(宾语)。在知识库120的其它实施例中以及在问题生成和回答系统100的其它实施例中,知识库120可以是以任何计算机可读和可搜索的布置组织的任何其它类型的知识库。
再次参照图1,第二数据服务器122可操作地连接于互联网112并且被配置为供应并且存储至少与问题数据集124相关联的数据。响应于从交互服务软件168接收问题、查询、或者其它请求,数据服务器122将来自问题数据集124的数据发送至无线设备104和远程计算机128、远程计算机144中的至少一个。在图1中,数据服务器122通过互联网112可操作地连接于远程计算机128、远程计算机144。在其它实施例中,数据服务器122直接连接于远程计算机128、远程计算机144中的至少一个。如在图1中示出的那样,知识库120和问题数据集124被存储在不同的数据服务器116、122上。在其它实施例中,知识库120和问题数据集124被存储在同一数据服务器上或者被包括在远程计算机128、远程计算机144中的一个中。
问题数据集124是包括基于知识库120的多个问题和回答的计算机可搜索数据集。在一个实施例中,问题数据集124的问题和回答是自然语言问题,意味着问题和回答是以由人类读者可理解的方式来确定格式的。存储在问题数据集124中并且基于知识库120的第一语句204的示例性问题是“能够使用竖锯在工件中执行曲线切割吗”。存储在问题数据集124中并且基于同一语句204的另一示例性问题是“竖锯是用于执行曲线切割的合适工具吗”。在至少一个实施例中,问题数据集124包括近于一万个问题;然而,在其它实施例中,问题数据集124包括基于知识库120中的语句的数量的任何合适数量的问题。
远程计算机128包括可操作地连接于存储器136的处理器132,所述存储器136被配置为存储用于搜索引擎140的程序指令。处理器132被提供为微处理器、控制器、或者任何其它类型的电子控制芯片。存储器136是电子数据存储单元,其在此也被称为非暂态计算机可读介质。任何其它电子数据也可以被存储在存储器136中。远程计算机128被配置为接收被导向至搜索引擎140的查询并且将由搜索引擎140生成的数据供应给可操作地连接于互联网112的客户机设备,诸如例如无线设备104和远程计算机144。
搜索引擎140,其在此也被称为web搜索引擎,是配置为在互联网112上搜索信息或者数据的一个程序、多个程序或者软件。搜索引擎140从客户机设备接收查询或者一个或多个搜索词,例如通过数据库处理查询或者搜索词,并且然后基于查询或者搜索词生成输出。例如,响应于接收诸如“电动工具”的搜索词,搜索引擎140处理该搜索词并且生成输出,该输出包括网站的列表,所述网站包括该搜索词。搜索引擎140还被配置为生成建议的搜索查询。例如,响应于接收到(ⅰ)搜索词、(ⅱ)部分自然语言查询、和/或(ⅲ)完全自然语言查询中的一个,搜索引擎140被配置为基于所接收的数据生成附加的完全自然语言查询。响应于接收以下的完全自然语言查询“竖锯能够切割钉子吗”,搜索引擎140可以生成并且返回以下的附加的自然语言查询,包括:(ⅰ)“竖锯能够切断钉子吗”;(ⅱ)“你能用竖锯切割钉子吗”;以及(ⅲ)“我能用竖锯切割钉子吗”。因此,搜索引擎140是定期地更新的自然语言查询的源。示例性的搜索引擎140包括在www.google.com和www.yahoo.com上可获得的搜索引擎。在其它实施例中,搜索引擎140可以包括任何想要的搜索引擎或者任何组合搜索引擎。也就是,搜索引擎140可以通过如下来生成附加的自然语言查询:通过多于一个的搜索引擎处理(ⅰ)搜索词、(ⅱ)部分自然语言查询、和/或(ⅲ)完全自然语言查询。
远程计算机144包括可操作地连接于存储器152的处理器148。处理器148被提供为微处理器、控制器、或者任何其它类型的电子控制芯片。存储器152是电子数据存储单元,其在此也被称为非暂态计算机可读介质。存储器152被配置为存储模板生成软件156、问题生成软件160、问题扩展软件164、和交互服务软件168,其中的每个都在下面详细地描述。任何其它电子数据、软件、和/或程序指令也可以被存储在存储器152中。远程计算机144在此也被称为交互服务设备,因为远程计算机144包括将交互服务软件168存储于其上的存储器152。
在操作中,问题生成和回答系统100被配置为实现由图3的流程图图示的方法300。在方法300的描述中,对方法300正在执行一些任务或者功能的叙述指代控制器或者一般目的处理器执行存储在可操作地连接于控制器或者处理器的非暂态计算机可读存储介质中的被编程指令以操纵数据或者操作问题生成和回答系统100中的一个或多个组件以执行任务或者功能。特别地,远程计算机144的处理器148和/或远程计算机128的处理器132的处理器电路/逻辑可以是这样的控制器或者处理器。替换地,处理器132、处理器148能够利用多于一个的处理器和相关联的电路和组件来实现,其中的每个被配置为形成在此描述的一个或多个任务或者功能。附加地,方法300可以是以任何可行的时间排序的顺序执行的,不管在各图中示出的顺序或者其中描述方法300的顺序如何。
简要地,如由框304示出那样,方法300包括处理知识库120以标识所选择的语句204。然后,在框308中,方法300包括为所选择的语句204生成至少一个问题模板。接下来,在框312中,方法300包括使用至少一个问题模板以从所选择的语句204形成多个自然语言种子问题。然后,如在框316中指出的那样,通过搜索引擎140处理种子问题以将每个种子问题扩展成至少一个扩展问题。种子问题和扩展问题被存储在问题数据集124中,并且至少种子问题是与回答相关联的。远程计算机144从客户机设备(例如,无线设备104)接收查询并且引起交互服务软件168使用统计处理以将所接收的查询与问题数据集124中的最接近地匹配(或者确切地匹配)所接收查询的问题相关联。接下来,远程计算机144将对应的回答(如果可用的话)发送至无线设备104。以这种方式,问题生成和回答系统100高效地生成并且回答自然语言问题。在下面进一步详细地描述这些步骤中的每个。
如在框304中示出的那样,方法300包括处理知识库120以标识所选择的语句204。在一些实施例中,一些语句204或者知识库120的一些部分可能不适用于生成问题;此外,一些语句204可能被导向至第一域并且其它语句204可能被导向至第二域。因此,方法300包括使用处理器148以标识知识库120的如下语句204:从所述语句204能够生成有意义的问题;这些语句240在此被称为所选择的语句240。因此,在框304的处理步骤期间,处理器148经由互联网112下载知识库120的至少一部分,并且处理知识库120以标识将从其生成问题的所选择的语句240。
在一个实施例中,在框304的处理步骤期间,处理器148确定与语句204的每个谓语表述相关联的对应的域。然后,用户选择所确定的域中的一个作为所选择的域(在此也被称为“工作域”)。在那之后,处理器148将具有所选择的域的语句204标识为所选择的语句204以用于进一步的处理和问题生成。具有与所选择的域不相同或者不相似的域的语句204不是所选择的语句并且不在问题生成中使用。
在框304的处理步骤期间,处理器148还可以将所选择的语句204组织成具有相同或者相似的谓语表述的组,由此简化框308的模板生成步骤。通过组织谓语表述,处理器148使得用户能够移除与所选择的域匹配或者相似但是不适用于生成问题的任何语句204。如在图2中示出的那样,存在两种不同的谓语表述;即“执行动作”和“包括附件”。因此,在框304的处理步骤期间,处理器148可以将1号至3号以及7号至9号的语句204分组在一起成为第一组语句204,并且处理器148可以将4号至6号以及10号至12号的语句204分组在一起成为第二组语句204。
接下来,在框308中,基于所选择的语句204的结构生成问题模板。问题模板可以是手动地生成的或者可以是通过处理器148自动地生成的。自动地生成问题模板的问题生成和回答系统100的实施例使用存储在存储器152中的模板生成软件156。无论是手动地生成的还是自动地生成的问题模板都被存储在存储器152中。附加地或者替换地,问题模板被存储在任何想要的电子存储器中。
问题模板是被用于将所选择的语句204变成自然语言问题的“填空”指南。例如,可以针对知识库120中具有谓语表述“执行动作”的语句204生成的问题模板是“X能够执行Y吗”。在前述问题模板中,利用主语表述填写“X”并且利用宾语表述填写“Y”。考虑第一语句204,填写问题模板造成问题读为:“竖锯能够执行曲线切割吗”。作为另一个示例,针对知识库120中具有谓语表述“包括附件”的语句204,可以使用以下的问题模板:“X包括Y吗”。考虑第十语句204,填写问题模板造成问题读为“电动螺丝刀包括平头钻头吗”。对于典型的知识库120而言,每组所选择的语句204只需要两到三个问题模板。此外,问题模板是基于语句204的结构由用户容易地并且快速地生成的;因此,手动地生成问题模板不是很大的负担。
接下来,在框312中,处理器148使用问题生成软件160以针对每个所选择的语句204生成至少一个种子问题。因此,远程计算机144在此可以被称为问题生成系统。种子问题是得自于利用来自知识库120中的语句204的对应表述填写问题模板的自然语言问题。因此,包括“竖锯能够执行曲线切割吗”和“电动螺丝刀包括平头钻头吗”的在上面阐述的示例性问题是种子问题。典型地,针对知识库120的所选择的语句204中的每个生成至少一个种子问题。然而,如果特定语句204与多于一个的问题模板相关联,则那么可以从特定的所选择的语句204生成多于一个的种子问题。种子问题至少暂时地存储在存储器152中。存储在存储器152中的一组种子问题在此可以被称为种子问题集。此外,种子问题中的一些或全部可以被存储在数据服务器122的问题数据集124中。
种子问题集的优点是,因为种子问题是从知识库120和问题模板生成的,所以种子问题中的关键信息(即,主语表述、谓语表述、以及宾语表述)被自动地注释。也就是,在种子问题“竖锯能够执行曲线切割吗”中,从知识库120已知的是主语表述是“竖锯”,谓语表述是“执行动作”,并且宾语表述是“曲线切割”。因此,典型地不需要种子问题的人类注释。
接下来,在框316中并且参照图4,利用搜索引擎140生成至少一个扩展问题。具体地,通过经搜索引擎140处理种子问题中的一个来利用搜索引擎140生成扩展问题,并且然后,如果想要的话,则通过搜索引擎140处理所生成的扩展问题以生成附加的扩展问题。针对每个种子问题重复该处理。典型地,种子问题就其范围和自然性而言是受限的。为了得到更多的多样化问题,系统100借助互联网拓展种子问题集。具体地,经由互联网112将每个种子问题发送至搜索引擎140。搜索引擎140被配置为针对种子问题中的每个生成与该种子问题不同的至少一个扩展问题。通过图4的示图图示问题扩展处理。如在图4中示出的那样,在通过搜索引擎140处理种子问题之后,搜索引擎140生成三个扩展问题。在处理问题期间,搜索引擎140可以生成从一至五十个扩展问题。接下来,通过搜索引擎140处理扩展问题中的每个,并且针对原始扩展问题中的每个生成两个附加的扩展问题。该处理是迭代地可重复N次的,以使用搜索引擎140生成任何想要的数量的扩展问题。
远程计算机128经由互联网112将由搜索引擎140生成的至少一个扩展问题发送至远程计算机144。扩展问题被作为扩展问题集存储在存储器152中。例如,当种子问题“电动螺丝刀包括平头钻头吗”被发送至搜索引擎140时,搜索引擎140返回至少以下的扩展问题,包括:“电动螺丝刀具有平头钻头吗”、“电动螺丝刀使用平头钻头吗”、以及“电动螺丝刀包括伏特加酒吗”。
扩展问题典型地表示真实用户的信息需求,并且因此,扩展问题的生成典型地造成许多有意义的问题。然而,扩展问题不受限于所选择的域,并且可能包含或者语法上不正确或者与所选择的域无关的噪声数据。例如,在上面的示例中,搜索引擎140生成扩展问题“电动螺丝刀包括伏特加酒吗”。该扩展问题与被称为电动螺丝刀的饮料相关而不是与被称为电动螺丝刀的电动工具相关。因此,该扩展问题不是所选择的域的一部分。为了计及这种类型的问题,问题扩展软件164处理扩展问题并且从存储器152移除与除了所选择的域之外的域相关的、在语法上不正确的、和/或包含冒犯的或者不适当的词的任何问题。与所选择的域充分相关的扩展问题在此被称为所选择的扩展问题。还可以由人类技术人员手动地过滤扩展问题以移除不想要的扩展问题并且标识所选择的扩展问题。
在一个实施例中,基于域过滤扩展问题被称为基于扩展问题的相关性和流畅性选择扩展问题。相关性是扩展问题是否与所选择的域相关的衡量。流畅性是扩展问题是否被以自然句子构造良好地写出的衡量。只有具有高相关性和流畅性的那些扩展问题被包括在问题数据集124中。取决于实施例,可以使用不同的因素来确定与要被包括在问题数据集124中的所选择的域足够接近地相关的扩展问题。在其中自动过滤扩展问题的实施例中,问题扩展软件164将统计方法应用于例如扩展问题以过滤扩展问题。
在处理器148生成种子问题并且已经确定所选择的扩展问题之后,处理器148至少将种子问题与回答相关联。典型地,知识库120包括对从语句204生成的问题的回答。例如,对示例性种子问题“电动螺丝刀包括平头钻头吗”的回答为“是”。基于指示电动螺丝刀确实包括平头钻头的第十语句204的结构,能够确定的是回答为“是”。因此,知识库120可以不具有用于“回答”的列;然而,能够至少针对种子问题由处理器148确定回答,或者针对种子问题和扩展问题由人类技术人员确定回答。也就是,如果不能由处理器148自动地生成对问题中的任何一个的回答,则人类技术人员能够确定对问题中的任何一个的回答。对种子问题的回答至少暂时地存储在存储器152中。
接下来,远程计算机144将种子问题、所选择的扩展问题、以及回答存储在数据服务器122的问题数据集124中。因此,问题数据集124包括与所选择的域相关的多个问题。所述问题在许多应用中是有用的,所述应用为诸如基于用户的自然语言问题或者询问提供用户智能服务的智能用户交互和辅助系统。问题数据集124的问题典型地反映用户的真实信息需求。通过利用问题数据集124,智能用户交互和辅助系统能够知道用户将试图得到何种信息以及用户如何可能地针对所选择的域采用自然语言问题来表述他们的请求。
在示例性实施例中,远程计算机144的交互服务软件168利用问题数据集124来回答从诸如无线设备104的客户机设备接收的问题。因此,远程计算机144是示例性的智能用户交互和辅助系统。具体地,用户使用输入设备176将自然语言问题(或者采用任何其它格式的问题)输入到无线设备104中。无线设备104将对应于用户输入问题的问题数据发送至通过交互服务软件168处理问题数据的远程计算机144。特别是,交互服务软件168使用问题数据集124和统计分析方法和/或任何其它合期望的处理步骤来确定作为问题数据集124中的与用户输入问题最接近的问题的匹配问题。然后远程计算机144经由互联网112将与匹配问题相关联的回答发送至无线设备104。以这种方式,用户输入问题被快速地、容易地、并且以自然语言的格式回答。
虽然已经在附图和前述描述中详细地图示并且描述了本公开,但是其应当被认为是符合说明性而不是约束性的。理解的是仅仅已经呈现了优选的实施例,并且想要保护落在本公开的精神内的所有改变、修改和进一步的应用。

Claims (18)

1.一种从包括多个语句的知识库生成问题数据集的方法,所述方法包括:
基于所述多个语句中的所选择的语句的结构生成至少一个问题模板;
利用处理器基于所述至少一个问题模板生成针对每个所选择的语句的种子问题;
通过经搜索引擎处理种子问题中的每个来利用搜索引擎生成至少一个第一扩展问题;以及
将所述至少一个第一扩展问题和种子问题中的至少一个存储在第一存储器中作为问题数据集。
2.如权利要求1所述的方法,进一步包括:
通过经搜索引擎处理所述至少一个第一扩展问题中的至少一个来利用搜索引擎生成至少一个第二扩展问题;以及
将所述至少一个第二扩展问题中的至少一个添加至问题数据集。
3.如权利要求1所述的方法,进一步包括:
使用处理器将每个种子问题与来自知识库的对应回答相关联。
4.如权利要求3所述的方法,进一步包括:
从可操作地连接于处理器的客户机设备接收问题数据;
将匹配问题确定为种子问题中与问题数据最相似的那个;以及
将与匹配问题相关联的回答发送至客户机设备。
5.如权利要求1所述的方法,其中知识库是资源描述框架知识库,并且所述多个语句中的每个语句包括主语表述、谓语表述、以及宾语表述。
6.如权利要求5所述的方法,其中生成针对每个所选择的语句的种子问题包括:
利用处理器来利用所述多个语句中的对应语句的至少主语表述和宾语表述填写至少一个问题模板。
7.如权利要求1所述的方法,进一步包括:
确定与所述多个语句中的每个语句相关联的对应的域;
确定所选择的域;以及
将所选择的语句选择为所述多个语句中具有所选择的域的语句。
8.如权利要求7所述的方法,进一步包括:
确定所述至少一个第一扩展问题中的每个的对应的域;以及
仅将具有所选择的域的至少一个扩展问题添加至问题数据集。
9.如权利要求1所述的方法,其中所述至少一个问题模板是手动地生成的并且被保存至可操作地连接于处理器的第二存储器。
10.一种问题生成系统,用于从具有多个语句的知识库生成问题数据集,包括:
存储器;以及
远程计算机,其可操作地连接于知识库和存储器,所述远程计算机包括被配置为进行如下的处理器:
标识所述多个语句中的至少一个所选择的语句,
使用基于所述至少一个所选择的语句的结构的至少一个问题模板生成针对每个所选择的语句的种子问题,
利用可操作地连接于远程计算机的搜索引擎从种子问题中的每个生成至少一个第一扩展问题,以及
将所述至少一个第一扩展问题和种子问题中的至少一个存储在存储器中作为问题数据集。
11.如权利要求10所述的问题生成系统,其中处理器进一步被配置为:
利用搜索引擎从第一扩展问题中的每个生成至少一个第二扩展问题;以及
将所述至少一个第二扩展问题中的至少一个存储在存储器中作为问题数据集。
12.如权利要求10所述的问题生成系统,其中处理器被进一步配置为:
将每个种子问题与来自知识库的对应的回答相关联。
13.如权利要求12所述的问题生成系统,进一步包括:
交互服务设备,其被可操作地配置为:(ⅰ)从客户机设备接收问题数据;(ⅱ)将匹配问题确定为种子问题中与问题数据最相似的那个;以及(ⅲ)将与匹配问题相关联的回答发送至客户机设备。
14.如权利要求10所述的问题生成系统,其中知识库是资源描述框架知识库,并且所述多个语句中的每个语句包括主语表述、谓语表述、以及宾语表述。
15.如权利要求14所述的问题生成系统,其中处理器通过如下来生成针对每个所选择的语句的种子问题:至少利用所述多个语句中的对应语句的主语表述和宾语表述来填写所述至少一个问题模板。
16.如权利要求10所述的问题生成系统,其中处理器被进一步配置为:
确定与所述多个语句中的每个语句相关联的对应的域;
确定所选择的域;并且
将至少一个所选择的语句标识为所述多个语句中的具有所选择的域的语句。
17.如权利要求16所述的问题生成系统,其中处理器被进一步配置为:
确定所述至少一个第一扩展问题中的每个的域;并且
仅将具有所选择的域的至少一个扩展问题存储在存储器中作为问题数据集。
18.如权利要求10所述的问题生成系统,其中所述至少一个问题模板是手动地生成的。
CN201780069055.XA 2016-09-09 2017-09-07 用于从知识库进行自动问题生成的系统和方法 Active CN110023929B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/260738 2016-09-09
US15/260,738 US10423685B2 (en) 2016-09-09 2016-09-09 System and method for automatic question generation from knowledge base
PCT/EP2017/072484 WO2018046607A1 (en) 2016-09-09 2017-09-07 System and method for automatic question generation from knowledge base

Publications (2)

Publication Number Publication Date
CN110023929A true CN110023929A (zh) 2019-07-16
CN110023929B CN110023929B (zh) 2023-09-12

Family

ID=59829373

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780069055.XA Active CN110023929B (zh) 2016-09-09 2017-09-07 用于从知识库进行自动问题生成的系统和方法

Country Status (4)

Country Link
US (1) US10423685B2 (zh)
CN (1) CN110023929B (zh)
DE (1) DE112017003946T5 (zh)
WO (1) WO2018046607A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382256A (zh) * 2020-03-20 2020-07-07 北京百度网讯科技有限公司 信息推荐方法及装置
CN112508400A (zh) * 2020-12-04 2021-03-16 云南大学 一种众包协同迭代任务自生成方法
CN113505238A (zh) * 2021-07-09 2021-10-15 北京小谛机器人科技有限公司 语义图谱构建方法及装置

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018165579A1 (en) * 2017-03-10 2018-09-13 Eduworks Corporation Automated tool for question generation
US11138276B2 (en) 2018-06-27 2021-10-05 At&T Intellectual Property I, L.P. Method and apparatus for generating a search query for a search engine
US11036774B2 (en) * 2018-10-04 2021-06-15 Robert Bosch Gmbh Knowledge-based question answering system for the DIY domain
CN109408789B (zh) * 2018-10-10 2022-07-29 厦门市法度信息科技有限公司 一种笔录模板及其生成方法及笔录模板选择系统
DE102018222344A1 (de) 2018-12-19 2020-06-25 Robert Bosch Gmbh Verfahren zum Prognostizieren einer zeitlichen Beständigkeit von Einträgen einer Wissensdatenbank
JP7103264B2 (ja) * 2019-02-20 2022-07-20 日本電信電話株式会社 生成装置、学習装置、生成方法及びプログラム
CN111740851B (zh) * 2019-03-25 2023-05-09 华为技术有限公司 配置报文生成方法、设备以及系统
WO2021183681A1 (en) 2020-03-10 2021-09-16 MeetKai, Inc. Parallel hypothetical reasoning to power a multi-lingual, multi-turn, multi-domain virtual assistant
WO2022076471A1 (en) * 2020-10-05 2022-04-14 MeetKai, Inc. System and method for automatically generating question and query pairs
CN112541692B (zh) * 2020-12-21 2023-08-11 中国医学科学院医学信息研究所 科学数据管理计划生成方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080320013A1 (en) * 2007-06-22 2008-12-25 International Business Machines Corporation Statement generation using statement patterns
US20150088998A1 (en) * 2013-09-26 2015-03-26 International Business Machines Corporation Automatic Question Generation and Answering Based on Monitored Messaging Sessions

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110125734A1 (en) 2009-11-23 2011-05-26 International Business Machines Corporation Questions and answers generation
US20130196305A1 (en) 2012-01-30 2013-08-01 International Business Machines Corporation Method and apparatus for generating questions
US9535898B2 (en) 2013-02-06 2017-01-03 International Business Machines Corporation Natural language question expansion and extraction
US10720071B2 (en) 2013-12-23 2020-07-21 International Business Machines Corporation Dynamic identification and validation of test questions from a corpus
GB2531720A (en) 2014-10-27 2016-05-04 Ibm Automatic question generation from natural text

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080320013A1 (en) * 2007-06-22 2008-12-25 International Business Machines Corporation Statement generation using statement patterns
US20150088998A1 (en) * 2013-09-26 2015-03-26 International Business Machines Corporation Automatic Question Generation and Answering Based on Monitored Messaging Sessions

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MARIJA CUBRIC 等: "Towards automatic generation of e-assessment using semantic web technologies", 《INTERNATIONAL JOURNAL OF E-ASSESSMENT》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382256A (zh) * 2020-03-20 2020-07-07 北京百度网讯科技有限公司 信息推荐方法及装置
CN111382256B (zh) * 2020-03-20 2024-04-09 北京百度网讯科技有限公司 信息推荐方法及装置
CN112508400A (zh) * 2020-12-04 2021-03-16 云南大学 一种众包协同迭代任务自生成方法
CN112508400B (zh) * 2020-12-04 2021-10-08 云南大学 一种众包协同迭代任务自生成方法
CN113505238A (zh) * 2021-07-09 2021-10-15 北京小谛机器人科技有限公司 语义图谱构建方法及装置

Also Published As

Publication number Publication date
WO2018046607A1 (en) 2018-03-15
US10423685B2 (en) 2019-09-24
CN110023929B (zh) 2023-09-12
DE112017003946T5 (de) 2019-05-02
US20180075145A1 (en) 2018-03-15

Similar Documents

Publication Publication Date Title
CN110023929A (zh) 用于从知识库进行自动问题生成的系统和方法
US11042579B2 (en) Method and apparatus for natural language query in a workspace analytics system
US9119056B2 (en) Context-driven application information access and knowledge sharing
CN109688046A (zh) 问题管理方法、装置、设备及存储介质
US20160140204A1 (en) Computer implemented methods and systems for efficient data mapping requirements establishment and reference
CN107077466A (zh) 计算机自然语言处理中通用本体的词元映射
CN102576432A (zh) 自动的测试执行计划生成
RU2010114738A (ru) Устройство связи, система и способ предоставления пользовательского интерфейса
US20180352172A1 (en) Importing and presenting data
US11232134B2 (en) Customized visualization based intelligence augmentation
RU2653302C2 (ru) Система для обеспечения потока операций бизнес-процесса
CN108255689A (zh) 一种基于历史任务分析的Apache Spark应用自动化调优方法
CN105378788A (zh) 利用网页编辑器的电子菜单服务方法及其系统
US10430802B2 (en) Screen-image based classification
US20110099168A1 (en) Providing Increased Quality of Content to a User Over Time
US20130247051A1 (en) Implementation of a process based on a user-defined sub-task sequence
Abrantes et al. Preparing project based organizations for change
US20150120353A1 (en) User interface elements and computer method for a team leader homepage
CN108369589A (zh) 提供用于对通信进行分类的自动主题标签建议
US20170076243A1 (en) Profile searching and matching system
US9424341B2 (en) Information management systems and methods
JP2009205348A (ja) 自動対話処理システム
US20200175449A1 (en) Personalized task box listing
CN115905371A (zh) 数据趋势分析方法、装置、设备及计算机可读存储介质
US20100077287A1 (en) Desktop hyperlinks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant