CN116324929A - 回答跨度校正 - Google Patents
回答跨度校正 Download PDFInfo
- Publication number
- CN116324929A CN116324929A CN202180071355.8A CN202180071355A CN116324929A CN 116324929 A CN116324929 A CN 116324929A CN 202180071355 A CN202180071355 A CN 202180071355A CN 116324929 A CN116324929 A CN 116324929A
- Authority
- CN
- China
- Prior art keywords
- answer
- span
- natural language
- answering system
- answers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012937 correction Methods 0.000 title claims description 32
- 238000000034 method Methods 0.000 claims abstract description 53
- 238000012549 training Methods 0.000 claims abstract description 50
- 238000003860 storage Methods 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 2
- 230000003190 augmentative effect Effects 0.000 claims 3
- 230000008569 process Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 16
- 238000012545 processing Methods 0.000 description 13
- 230000008901 benefit Effects 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 238000007726 management method Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 210000004944 mitochondria-rich cell Anatomy 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 230000000873 masking effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000036961 partial effect Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000012384 transportation and delivery Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000001558 permutation test Methods 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011867 re-evaluation Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种使用计算设备来改进由自然语言问答系统生成的回答的方法,包括由计算设备接收自然语言问答系统中的多个问题。计算设备还生成多个问题的多个回答。计算设备此外利用所生成的多个回答来构造新的训练集,其中每个回答与多个问题中的对应问题进行比较。计算设备附加地用界定所生成的多个回答中的一个或多个的跨度的一个或多个标记来扩充新的训练集。计算设备还用扩充的新的训练集来训练新的自然语言问答系统。
Description
背景技术
本发明的实施例的领域涉及用于机器阅读理解(MRC)模型和系统的回答跨度校正。
机器阅读理解(MRC)中的回答确认包括根据输入上下文和问题对来验证所提取的回答。传统系统解决了在给定所提取的回答的情况下对问题的“可回答性”的重新评估。在面对可回答的问题时,传统的MRC系统趋向于产生部分正确的回答。
发明内容
实施例涉及用于机器阅读理解(MRC)模型和系统的回答跨度校正。一个实施例提供了一种使用计算设备来改进由自然语言问答系统生成的回答的方法。该方法包括由计算设备接收自然语言问答系统中的多个问题。计算设备还生成这多个问题的多个回答。计算设备还利用所生成的多个回答来构造新的训练集,其中每个回答与这多个问题中的对应问题进行比较。计算设备附加地利用界定所生成的多个回答中的一个或多个回答的跨度的一个或多个标记来扩充新的训练集。计算设备还利用扩充的新的训练集来训练新的自然语言问答系统。实施例经由校正显著地改进了现有技术中的英语读取器在不同误差类别中的预测。对于MRC系统,一些特征有助于回答的校正的优点,因为在面对可回答的问题时,现有MRC系统趋向于产生部分正确的回答。一些特征有助于检测MRC模型的预测中的误差并校正它们的优点。此外,这些特征有助于产生更好地匹配基础事实(GT)的回答跨度的优点,并且因此提高MRC输出回答的质量。
可以包括以下特征中的一个或多个。在一些实施例中,使用用于新的自然语言问答系统的扩充的新的训练集来校正自然语言问答系统的读取器模型的回答跨度。
在一些实施例中,校正回答跨度的新的自然语言问答系统被级联在自然语言问答系统之后。
在一个或多个实施例中,该方法还可以包括由校正回答跨度的新的自然语言问答系统来确定回答跨度是否应该被校正。此外,新的自然语言问答系统的校正器模型校正回答跨度,产生改进的回答跨度。
在一些实施例中,该方法可以附加地包括校正器模型使用神经网络以便生成改进的回答跨度。
在一个或多个实施例中,该方法可以包括针对回答跨度不应该被校正的确定,基于将GT回答界定为到新的自然语言问答系统的输入,指示没有校正的需要,从多个回答中的每个原始回答创建新的示例回答。
在一些实施例中,该方法还可以包括使用前k个不正确回答预测中的多个来为每个不正确回答预测创建示例回答,其中输入是读取器模型的预测回答跨度,并且目标回答是GT回答。
在一个或多个实施例中,该方法可以附加地包括生成的多个回答包括预测的回答,并且一个或多个标记(token)在上下文中标记预测的多个回答,以便由校正器模型预测新的回答。
参考以下说明书、所附权利要求以及附图,将理解本实施例的这些和其它特征、方面和优点。
附图说明
图1描绘了根据实施例的云计算环境;
图2描绘了根据实施例的一组抽象模型层;
图3是根据实施例的用于针对机器阅读理解(MRC)的性能改进的回答跨度校正的系统的网络架构;
图4示出了根据实施例的可以与图1的服务器和/或客户端相关联的代表性硬件环境;
图5是图示了根据一个实施例的用于针对MRC的性能改进的回答跨度校正的分布式系统的框图;
图6示出了多层双向变换器编码器(BERT)MRC系统的示例;
图7示出了根据一个实施例的来自传统MRC模型或系统的读取器的单个回答结果(给定问题和上下文)以及来自读取器加校正器流水线的回答结果(给定问题和上下文)的示例;
图8A示出了用于传统MRC模型或系统的被划分成折叠的训练数据的代表性示例;
图8B示出了根据一个实施例的n-1个单独的折叠被如何分组以便训练分离的MRC模型的代表性示例,MRC模型用于生成对其余折叠的预测;
图9图示了根据一个实施例的修改的MRC回答跨度校正器模型的读取器加校正器流水线的流程的框图;
图10A示出了根据一个实施例的包括针对图9示出的鲁棒优化的BERT方法(RoBERTa)、两个读取器的集成方法以及使用读取器加校正器流水线(或修改的MRC回答跨度校正器模型)的方法、对于自然问题(NQ)MRC基准的关于可回答问题的结果的表;
图10B示出了根据一个实施例的包括在段落是英语时使用读取器加校正器流水线(图9中示出的修改的MRC回答跨度校正器模型)和针对通用跨语言迁移任务(G-XLT)在多语言问答(MLQA)MRC基准数据集上的结果的表;
图10C示出了根据一个实施例的包括来自使用读取器加校正器流水线(修改的MRC回答跨度校正器模型)的所有49种MLQA语言对组合的精确匹配分数的差异的表;以及
图11图示了根据一个实施例的用于MRC的性能改进的回答跨度校正的过程的框图。
具体实施方式
已经出于说明的目的呈现了对各种实施例的描述,但并不旨在是穷举的或限于所公开的实施例。在不脱离所描述的实施例的范围的情况下,许多修改和变化对于本领域的普通技术人员将是显而易见的。选择本文所使用的术语以最好地解释实施例的原理、实际应用或对市场上发现的技术改进,或使本领域的其他普通技术人员能够理解本文所公开的实施例。
实施例涉及用于机器阅读理解(MRC)模型和系统的回答跨度校正。一个实施例提供了一种使用计算设备来改进由自然语言问答系统生成的回答的方法,包括由计算设备接收自然语言问答系统中的多个问题。计算设备还生成多个问题的多个回答。计算设备还利用所生成的多个回答来构造新的训练集,其中每个回答与多个问题中的对应问题进行比较。计算设备附加地利用界定所生成的多个回答中的一个或多个回答的跨度的一个或多个标记来扩充新的训练集。计算设备还利用扩充的新的训练集来训练新的自然语言问答系统。
一个或多个实施例包括利用人工智能(AI)模型的校正器(例如,校正器960(图9))。AI模型可以包括经训练的ML模型(例如,诸如NN、卷积NN(CNN)、递归NN(RNN)、基于长短期记忆(LSTM)的NN、基于门递归单元(GRU)的RNN、基于树的CNN、自注意网络(例如,利用注意机制作为基本构建块的NN;自注意网络已经显示出对于序列建模任务是有效的,同时没有递归或卷积)、BiLSTM(双向LSTM)等的模型)。人工NN是一组互连的节点或神经元。
预先理解,虽然本公开包括云计算的详细描述,但是本文叙述的教导的实现方式不限于云计算环境。相反,本实施例中的实施例能够结合现在已知或以后开发的任何其它类型的计算环境来实现。
云计算是一种服务递送模型,用于使能对可配置计算资源(例如,网络、网络带宽、服务器、处理器、存储器、存储装置、应用程序、虚拟机(VM)以及服务)的共享池的方便的、按需的网络访问,该可配置计算资源可以以最小的管理努力或与服务的提供商的交互来快速提供和释放。该云模型可以包括至少五种特性、至少三种服务模型以及至少四种部署模型。
特性如下:
按需自助:云消费者可以单方面地根据需要并自动地提供计算能力,诸如服务器时间和网络存储,而不需要与服务的提供商进行人类交互。
广泛的网络接入:能力在网络上可用,并且通过促进由异构的薄或厚客户端平台(例如,移动电话、膝上型计算机以及PDA)使用的标准机制被访问。
资源池化:提供商的计算资源被池化以使用多租户模型来服务多个消费者,不同的物理和虚拟资源根据需求动态地被分配和重新分配。有位置独立的意义,因为消费者通常不控制或不知道所提供的资源的确切位置,但是能够在较高抽象级别(例如国家、州或数据中心)上指定位置。
快速弹性:在一些情况下,能力可以被快速且弹性地提供以及迅速向外扩展和快速释放以迅速向内扩展。对于消费者,可用于提供的能力通常看起来不受限制,并且可以在任何时间以任何数量购买。
测量服务:云系统通过利用在某些抽象级别上适合于服务类型(例如,存储装置、处理、带宽以及活跃消费者账户)的计量能力来自动地控制和优化资源使用。资源使用可以被监视、控制以及报告,从而为所利用的服务的提供商和消费者二者提供透明度。
服务模型如下:
软件即服务(SaaS):提供给消费者的能力是使用在云基础设施上运行的提供商的应用程序的能力。应用程序可以通过诸如网络浏览器(例如,基于网络的电子邮件)之类的瘦客户端界面从各种客户端设备访问。消费者不管理或控制包括网络、服务器、操作系统、存储装置、或甚至单独的应用程序能力的底层云基础设施,可能的例外是有限的用户专用应用程序配置设置。
平台即服务(PaaS):提供给消费者的能力是将消费者创建或获取的应用程序部署到云基础设施上的能力,这些应用程序是使用提供商支持的编程语言和工具创建的。消费者不管理或控制包括网络、服务器、操作系统或存储装置的底层云基础设施,但具有对部署的应用程序和可能的应用程序托管环境配置的控制。
基础设施即服务(IaaS):提供给消费者的能力是提供处理、存储装置、网络以及消费者能够在其上部署和运行任意软件(可以包括操作系统和应用程序)的其它基本计算资源的能力。消费者不管理或控制底层云基础设施,但具有对操作系统、存储装置、部署的应用程序的控制,以及对可能选择的联网组件(例如,主机防火墙)的有限控制。
部署模型如下:
私有云:云基础设施仅用于组织操作。它可以由组织或第三方管理,并且可以存在于场所内或场所外。
社区云:云基础设施由几个组织共享,并且支持具有共享关注(例如,任务、安全要求、策略以及合规性考虑)的特定社区。它可以由组织或第三方管理,并且可以存在于场所内或场所外。
公有云:云基础设施对一般公众或大型工业群体可用,并且由销售云服务的组织拥有。
混合云:云基础设施是两个或更多云(私有、社区或公共)的组合,该云保持唯一实体但是通过使能数据和应用程序移植性的标准化或私有技术(例如,用于云之间的负载平衡的云爆发)绑定在一起。
云计算环境是面向服务的,其焦点在于无状态、低耦合、模块性以及语义互操作性。在云计算的核心是包括互连节点的网络的基础设施。
现在参考图1,描绘了说明性云计算环境50。如示出的,云计算环境50包括云消费者使用的本地计算设备(诸如,例如个人数字助理(PDA)或蜂窝电话54A、台式计算机54B、膝上型计算机54C和/或汽车计算机系统54N)可以与其通信的一个或多个云计算节点10。节点10可以彼此通信。它们可以被物理地或虚拟地分组(未示出)在一个或多个网络中,诸如如上文描述的私有云、社区云、公共云或混合云或其组合。这允许云计算环境50提供基础设施、平台和/或软件作为服务,云消费者不需要为其维护本地计算设备上的资源。应当理解,图1中示出的计算设备54A-54N的类型仅旨在是说明的,并且计算节点10和云计算环境50可以通过任何类型的网络和/或网络可寻址连接(例如,使用网络浏览器)与任何类型的计算机化设备通信。
现在参考图2,示出了由云计算环境50(图1)提供的一组功能抽象层。应当预先理解,图2中示出的组件、层以及功能仅旨在是说明性的,实施例并不限于此。如所描绘的,提供了以下层和对应的功能:
硬件和软件层60包括硬件和软件组件。硬件组件的示例包括:主机61;基于RISC(精简指令集计算机)架构的服务器62;服务器63;刀片服务器64;存储设备65;以及网络和网络组件66。在一些实施例中,软件组件包括网络应用服务器软件67和数据库软件68。
虚拟化层70提供抽象层,从该抽象层可以提供虚拟实体的以下示例:虚拟服务器71;虚拟存储装置72;包括虚拟私有网络的虚拟网络73;虚拟应用和操作系统74;以及虚拟客户端75。
在一个示例中,管理层80可以提供以下描述的功能。资源供应81提供用于在云计算环境内执行任务的计算资源和其它资源的动态采购。计量和定价82提供了在云计算环境内资源被利用时的成本跟踪并为这些资源的消耗的开账单或发票。在一个示例中,这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证,并且为数据和其他资源提供保护。用户门户83为消费者和系统管理员提供对云计算环境的访问。服务级别管理84提供云计算资源分配和管理,使得满足所需的服务级别。服务水平协议(SLA)规划和履行85根据SLA预期未来需求为云计算资源提供预安排和采购。
工作负载层90提供了可以利用云计算环境的功能的示例。可以从该层提供的工作负载和功能的示例包括:绘图和导航91;软件开发和生命周期管理92;虚拟教室教育递送93;数据分析处理94;交易处理95;以及用于MRC处理96的性能改进的回答跨度校正(参见,例如,图5系统500,读取器加校正器流水线(修改的MRC回答校正器模型900)以及图11过程1100)。如以上提及的,关于图2描述的所有前述示例仅是说明性的,实施例并不限于这些示例。
重申的是,虽然本公开包括关于云计算的详细描述,但本文所陈述的教导的实现方式不限于云计算环境。相反,可以利用现在已知或以后开发的任何类型的集群计算环境来实现实施例。
图3是根据实施例的用于针对MRC模型的性能改进的回答跨度校正的系统300的网络架构。如图3示出的,提供了多个远程网络302,包括第一远程网络304和第二远程网络306。网关301可以耦合在远程网络302与邻近网络308之间。在本网络架构300的上下文中,网络304、306可以各自采用任何形式,包括但不限于LAN、诸如互联网的WAN、公共交换电话网络(PSTN)、内部电话网络等。
在使用中,网关301用作从远程网络302到邻近网络308的入口点。这样,网关301可以用作能够引导到达网关301的给定数据分组的路由器和为给定分组提供进出网关301的实际路径的交换机。
还包括耦合到邻近网络308的至少一个数据服务器314,该至少一个数据服务器314可以经由网关301从远程网络302访问。应当注意,(一个或多个)数据服务器314可以包括任何类型的计算设备/组件。多个用户设备316耦合到每个数据服务器314。这样的用户设备316可以包括台式计算机、膝上型计算机、手持式计算机、打印机和/或任何其他类型的包含逻辑的设备。应当注意,在一些实施例中,用户设备316也可以直接耦合到任何网络。
外围设备320或一系列外围设备320,例如传真机、打印机、扫描仪、硬盘驱动器、联网和/或本地存储单元或系统等,可以耦合到网络304、306、308中的一个或多个。应当注意,数据库和/或附加组件可以与耦合到网络304、306、308的任何类型的网络元件一起使用,或者集成到其中。在本说明书的上下文中,网络元件可以指网络的任何组件。
根据一些方法,本文描述的方法和系统可以利用和/或在虚拟系统和/或系统上实现,这些虚拟系统和/或系统仿真一个或多个其他系统,诸如仿真环境的/>系统、虚拟地托管/>环境的/>系统、仿真/>环境的系统等。在一些实施例中,这种虚拟化和/或仿真可以通过软件的使用来实现。
图4示出了根据一个实施例的与图3的用户设备316和/或服务器314相关联的代表性硬件系统400环境。在一个示例中,硬件配置包括具有诸如微处理器之类的中央处理单元410的工作站,以及经由系统总线412互连的多个其它单元。图4示出的工作站可以包括随机存取存储器(RAM)414、只读存储器(ROM)416、以及用于将诸如磁盘存储单元420之类的外围设备连接到总线412的I/O适配器418、用于将键盘424、鼠标426、扬声器428、麦克风432和/或诸如触摸屏、数字相机(未示出)等的其它用户接口设备连接到总线412的用户接口适配器422、用于将工作站连接到通信网络435(例如,数据处理网络)的通信适配器434以及用于将总线412连接到显示设备438的显示适配器436。
在一个示例中,工作站可以具有驻留在其上的操作系统,诸如Operating System(OS)、MA/> OS等。在一个实施例中,系统400采用基于/>的文件系统。将理解,除了所提及的那些之外,其他示例也可以在平台和操作系统上实现。这样的其它示例可以包括使用/>XML、C和/或C++语言或其它编程语言编写的操作系统,以及面向对象的编程方法。也可以使用已经变得越来越多地用于开发复杂应用的面向对象编程(OOP)。
图5是图示了根据一个实施例的用于针对MRC模型的性能改进的回答跨度校正的分布式系统500的框图。在一个实施例中,系统500包括客户端设备510(例如,移动设备、智能设备、计算系统等)、云或资源共享环境520(例如,公共云计算环境、私有云计算环境、数据中心等)以及服务器530。在一个实施例中,通过云或资源共享环境520向客户端设备510提供来自服务器530的云服务。
代替在给定提取的由传统系统解决的回答的情况下改进对问题的可回答性的预测,一个或多个实施例解决了现有MRC系统在面对可回答问题时趋向于产生部分正确的回答的问题。一个实施例提供了在上下文中重新检查所提取的回答以建议校正的AI校正模型。一个实施例使用与训练MRC模型相同的标记数据来构建用于训练这样的AI校正模型的训练数据。根据一个实施例,校正器检测MRC模型的预测中的误差,并且还校正所检测的误差。
图6示出了多层双向变换器编码器(BERT)模型630MRC系统600的示例。BERT模型630是多层双向变换器编码器。传统的神经机器翻译主要使用RNN或CNN作为编码器-解码器架构的模型基础。基于注意力的变换器模型摒弃了传统的RNN和CNN公式。注意机制是包括模型的隐藏状态的模糊记忆的形式。该模型选择从存储器检索内容。注意机制通过允许解码器回溯源序列隐藏状态,并且随后提供其加权平均作为解码器的附加输入来减少这个问题。使用注意力,模型选择最适合当前节点的上下文作为解码阶段期间的输入。变换器模型使用编码器-解码器架构。BERT模型630是深度双向DNN模型。BERT模型630将转换器的双向训练应用于语言建模。变换器包括读取文本输入的编码器和产生任务的预测的解码器。使用BERT模型630有两个阶段:预训练和微调。在预训练期间,在不同的预训练任务上的未加标签的数据上训练BERT模型630。对于微调,首先用预训练的参数来初始化BERT模型630,并且使用来自下游任务的加标签数据来微调所有参数。每个下游任务具有单独的变换器(经微调的)模型625,即使它们是用相同的预训练的参数来初始化的。
BERT模型630预训练阶段包括遮蔽语言模型和下一句预测。对于由于双向性和BERT模型630使用的多层自注意机制的效果而导致的遮蔽语言模型,为了训练深度双向表示,随机遮蔽一百分比(例如,15%)的输入标记,并且随后预测遮蔽的标记。如同标准语言模型,与遮蔽标记对应的最终隐藏向量被馈送到词汇表上的输出softmax函数(softmax函数将K个实数值的向量变为总和为1的K个实数值的向量)。遮蔽语言模型目标允许表示融合的左侧和右侧的上下文,这使得预训练深度双向转换器成为可能。BERT模型630损失函数仅考虑遮蔽值的预测,而忽略未遮蔽单词的预测。对于下一句预测,BERT模型630还针对二进制化的下一句预测任务进行预训练,该二进制化的下一句预测任务可以非常容易地从任何文本语料库中生成。为了帮助BERT模型630在训练中的两个句子之间进行区分,在进入BERT模型630之前如下处理输入。分类[CLS]标记605被插入在问题610(即,第一句或句子A)的开始处,而分隔[SEP]标记615被插入在问题610和上下文(第二句或句子B)620的结尾处。指示问题610或上下文620的句子嵌入(E)被添加到每个标记(例如,E[CLS]、E[SEP])。位置嵌入(例如,E1-EN、E'1-E'M))被添加到每个标记以指示其在序列中的位置。
为了预测上下文620是否被连接到问题610,整个输入序列通过变换器模型625进行。使用分类层(权重和偏差的学习矩阵)将[CLS]标记605的输出变换成2×1形状的向量。用softmax函数确定IsNextSequence的概率。对于每个下游自然语言处理(NLP)任务,任务特定的输入和输出被馈送到BERT模型630中,并且所有参数都是端对端进行微调的。在输入处,来自预训练的问题610和上下文620可以类似于释义中的句子对、蕴涵中的假设-前提对、问答中的问题-段落对等。在输出处,标记表示被馈送到用于标记级别任务,诸如序列加标签或问题回答,的输出层并且[CLS]表示被馈送到用于分类的输出层(例如,输出类别标签C 635)。输出层包括变换器输出T1-TN 640和T[SEP]、T'1-T'M以及T[SEP],它们是回答“开始和结束”跨度位置分类器645。
图7示出了根据一个实施例的来自传统MRC系统的读取器(例如,图9读取器930;给定问题和上下文)以及来自读取器加校正器流水线(MRC回答跨度校正器模型900(图9))的回答结果的示例。第一示例包括问题710、上下文中的结果715、利用上下文的来自读取器的的回答结果(R)716以及利用上下文的来自读取器加校正器流水线的回答结果(R+C)717。第二示例包括问题720、上下文中的结果725、R 726以及R+C 727。
图8A示出了用于传统MRC模型或系统的被划分成多个折叠的训练数据的代表性示例800。训练数据被划分或解析为n个折叠,fold1 810到foldn 820。
图8B示出了根据一个实施例的n-1个单独的折叠835如何被分组以便训练分离的MRC模型(n个MRC回答跨度校正器模型900(图9))的代表性示例830,该MRC模型用于生成关于其余折叠840的预测。n个MRC回答跨度校正器模型900在n-1(n是大于等于2的整数)个不同折叠上各自训练,并且利用它们生成关于其余折叠840的预测。组合来自省略的折叠上的n个不同模型的结果来为训练集中的每个示例产生系统输出的示例。这些[问题-上下文-真实回答-系统回答]元组是用于构造回答跨度校正器模型900的训练集的基础。
图9图示了根据一个实施例的修改的MRC回答跨度校正器模型900的读取器加校正器流水线的流程的框图。在一个实施例中,读取器模型930的输出被输入到校正器(或校正器模型)960。在一个实施例中,MRC模型(读取器模型930)包括具有两个附加分类标题的类似变换器的编码器,这两个附加分类标题分别选择回答跨度的开始和结束。在该实施例中,回答跨度校正器(校正器960)也具有类似的架构。校正器960用与读取器930不同的数据训练。修改的MRC回答跨度校正器模型900在上下文中重新检查读取器回答940(提取的回答)来建议校正,以解决改进回答跨度的相关问题并输出校正的回答970。在一个实施例中,读取器回答940用特殊界定标记[Td]950和[Td]951界定,并采用被训练的校正器960(具有与原始读取器930的架构类似的架构)以产生新的准确预测。
在一个实施例中,读取器930是用于在给定问题910时从段落920的回答提取的标准MRC任务的基准读取器。读取器930在预训练的基于转换器的语言模型之上使用两个分类标题,指向回答跨度的开始和结束位置。随后在目标MRC训练数据上对整个网络进行微调。在一个实施例中,校正器960的输入包含标记读取器的预测(读取器回答940)的边界的界定标记[Td]950和[Td]951,而其余的架构类似于读取器930的输入。在一个实施例中,期望修改的MRC回答跨度校正器模型900保持已经与基础事实(GT)跨度匹配的回答完整并且校正其余的回答。
在一个实施例中,为了生成用于校正器960的训练数据,训练集需要读取器930预测。为了获得读取器930预测,一个实施例将训练集划分或解析成五个折叠(参见,例如图8B示例830),在这些折叠中的四(即,n-1)个折叠上训练读取器930,并在其余折叠840上获得预测。这个过程重复五次以产生为训练集中的所有(问题、回答)对生成读取器预测(读取器回答940)。使用这些读取器预测(读取器回答940)和原始GT注释来生成校正器960的训练示例。为了创建不需要校正的示例,从每个原始示例(段落920)创建新示例921,其中GT回答本身界定在输入中,指示不需要校正。对于需要校正的示例,读取器930的前k个不正确预测(其中k是超参数)被用于为其每个创建示例,其中输入925是读取器930预测的跨度,并且目标是GT。GT(正确)和不正确预测二者在输入数据中的存在确保校正器960学习检测读取器930预测中的误差并校正它们二者。
图10A示出了根据一个实施例的包括针对鲁棒优化的BERT方法(RoBERTa)的对于自然问题(NQ)MRC基准的关于可回答问题的结果1005、针对两个读取器的集成方法的结果1006以及针对使用读取器加校正器流水线(或图9中示出的修改的MRC回答跨度校正器模型900)的方法的结果1007的表1000。在一个示例实施例中,修改的MRC回答跨度校正器模型900在开发(dev)和测试集中的可回答问题上进行评估。为了计算关于可回答测试集问题的精确匹配,使用总是输出回答并从排行榜取得召回值的系统。MLQA(多语言问答)包括七(7)种语言的实例:英语(en)、阿拉伯语(ar)、德语(de)、西班牙语(es)、印地语(hi)、越南语(vi)以及简体中文(zh)。
NQ和MLQA读取器分别微调RoBERTa大型和mBERT(集装的,104种语言)语言模型。RoBERTa模型首先在SQuAD2.0上微调,并且随后在NQ上微调。结果显示,对可回答和不可回答问题二者的训练都产生了更强和更鲁棒的读取器,即使它是对仅可回答问题进行评估。修改的MRC回答跨度校正器模型900使用与对应的RoBERTa读取器相同的底层变换器语言模型。在创建用于修改的MRC回答跨度校正器模型900的训练数据时,为了生成需要校正的示例,使用两个(k=2)最高得分的不正确读取器预测(k的值在dev上被调整)。由于目标是完全校正RoBERTA读取器的预测中的任何不准确性,因此使用精确匹配(EM)作为评估度量。在一个实施例中,修改的MRC回答跨度校正器模型900对读取器930和校正器960使用共同的架构,但是它们的参数是分离的并且是独立学习的。为了与相等大小的基线进行比较,NQ的集成系统平均两个不同RoBERTa读取器的输出logit(尚未标准化的预测)。表1000中的结果是通过对三个种子进行平均而获得的。在dev测试中,结果1007比读取器结果1006的总体表现好0.7。这些结果证实校正目标很好地补充了读取器的提取目标,并且对于修改的MRC回答跨度校正器模型900的总体性能增益是基本的。关于NQ的可回答问题的结果示出了修改的MRC回答跨度校正器模型900的结果1007相对于RoBERTa读取器方法的结果1005在dev集上提高了1.6分以及在盲测集上提高了1.3分。
图10B示出了根据一个实施例的包括当段落是英语时使用读取器加校正器流水线(图9示出的修改的MRC回答跨度校正器模型900)和针对通用跨语言迁移任务(G-XLT)在MLQA MRC基准数据集上的结果的表1020。比较两种设置中的性能:一种对于段落为英语,而问题是七种语言中的任一种(En-Context结果1025),而另一种是G-XLT结果1030,其中性能是在涉及七种语言(英语、阿拉伯语、德语、西班牙语、印地语、越南语以及简体中文)的所有四十九(49)种(问题、段落)语言对上的平均。对于MLQA,对158k示例测试集的精确匹配数使用Fisher随机化测试以验证结果的统计显著性。在表1020中可以看出,在p<0:01时,读取器加校正器流水线(修改的MRC回答跨度校正器模型900)表现明显好于基线读取器。
图10C示出了根据一个实施例的包括使用读取器加校正器流水线(具有校正器960(图9)的修改的MRC回答跨度校正器模型900)的所有49种MLQA语言对组合的精确匹配分数的差异的表1040。表1040中的结果示出了MLQA测试集中的所有语言对组合在与校正器960的精确匹配中的变化。表1040的最后一行示出了在不同语言的问题上平均的每个段落语言的增益。平均起来,校正器960为所有语言中的段落给予了性能增益(最后一行)。在英语上下文中观察到最高增益,这是在校正器960模型被训练成在上下文中校正英语回答时所期望的。然而,还发现读取器加校正器流水线(修改的MRC回答跨度校正器模型900)的方法在零触发设置中很好地推广到了其他语言,因为精确匹配在49种语言对中的40种语言对中得到了改进。
在一个实施例中,NQ dev集上由读取器加校正器流水线(修改的MRC回答跨度校正器模型900)的校正器960对读取器的预测所做的变化示出了读取器模型预测的总共13%。在所有改变中,24%导致对GT回答的不正确或部分正确的回答的校正,并且10%用新的正确回答替换原始正确回答(由于NQ中的多个GT注释)。在57%的情况下,这些变化没有校正误差。然而,从更近的角度看,观察到与下降时(15%)相比,在更多的这些情况下(30%)F1得分(测试的准确度的测量)增加了。最后,9%的变化在正确的读取器预测中引入了误差。
在一个实施例中,在三种误差类别:部分覆盖、冗长和重叠的每一个中校正的误差的百分比分别为校正9%、38%和22%。校正在所有类别中进行,但是在冗长和重叠方面比在部分覆盖方面更多,表明校正器960(图9)比充分性更好地学习最小性和句法结构的概念的可能性。在一个实施例中,使用读取器加校正器流水线(修改的MRC回答跨度校正器模型900(图9))的处理在不同的误差类别中校正现有技术中的英语读取器930的预测。在使用一个实施例的实验中,该方法还很好地推广到七种语言中的多语言和跨语言MRC。
图11图示了根据一个实施例的用于针对MRC的性能改进的回答跨度校正的过程1100的框图。在一个实施例中,在框1110中,过程1100由计算设备(从图1计算节点10、图2硬件和软件层60、图3处理系统300、图4系统400、图5系统500、读取器加校正器流水线(图9修改的MRC回答跨度校正器模型900)等)接收自然语言问答系统(例如,图9中包括读取器930的MRC模型)中的多个问题。在框1120中,过程1100还由计算设备生成多个问题的多个回答。在框1130中,过程1100还利用所生成的多个回答来构造新的训练集,其中每个回答与多个问题中的对应问题进行比较。在框1140中,过程1100附加地由计算设备用界定所生成的多个回答中的一个或多个的跨度的一个或多个标记来扩充新的训练集。在框1150中,过程1100附加地用扩充的新的训练集来训练新的自然语言问答系统(例如,图9中的读取器加校正器流水线或具有校正器960的修改的MRC回答跨度校正器模型900)。
在一个实施例中,过程1100还可以包括使用用于新的自然语言问答系统的扩充的新的训练集来校正自然语言问答系统的读取器模型(例如,图9的读取器930)的回答跨度的特征。
在一个实施例中,过程1100可以附加地包括校正回答跨度的新的自然语言问答系统被级联在自然语言问答系统之后的特征。
在一个实施例中,过程1100还可以附加地包括由校正回答跨度的新的自然语言问答系统确定回答跨度是否应该被校正的特征。此外,新的自然语言问答系统的校正器模型(例如,图9的校正器960)校正回答跨度,产生改进的回答跨度。
在一个实施例中,过程1100又可以附加地包括校正器模型使用神经网络以便生成改进的回答跨度。
在一个实施例中,过程1100还可以包括针对回答跨度不应该被校正的确定,基于将GT回答界定为新的自然语言问答系统的输入,指示不需要校正,从多个回答的每个原始回答中创建新的示例回答,的特征。
在一个实施例中,过程1100此外可以包括使用前k个不正确回答预测中的多个来为每个不正确回答预测创建示例回答的特征,其中输入是读取器模型的预测回答跨度,并且目标回答是GT回答。
在一个实施例中,过程1100可以包括所生成的多个回答包括预测回答,并且一个或多个标记在上下文中标记预测的多个回答,以便由校正器模型预测新回答的特征。
在一些实施例中,以上描述的特征有助于经由校正显著改进现有技术中的自然语言读取器在不同误差类别中的预测的优点。对于MRC系统,一些特征有助于回答校正的优点,因为在面对可回答问题时,现有MRC系统具有产生部分正确的回答的倾向。一些特征还有助于检测MRC模型的预测中的误差并校正所检测的误差的优点。此外,这些特征有助于产生改进GT的匹配的回答跨度,并且因此提高MRC输出回答的质量的优点。
一个或多个实施例可以是以任何可能的技术细节集成水平的系统、方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的计算机可读存储介质(或多个介质),这些计算机可读程序指令用于使处理器执行本实施例的各方面。
计算机可读存储介质可以是能够保留和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如,但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下:便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、诸如上面记录有指令的打孔卡或凹槽中的凸起结构之类的机械编码装置,以及上述的任何合适的组合。如本文使用的计算机可读存储介质不应被解释为暂时性信号本身,诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,通过光纤线缆的光脉冲)、或通过导线传输的电信号。
本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备,或者经由网络,例如互联网、局域网、广域网和/或无线网络下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令,并转发计算机可读程序指令以便存储在相应计算/处理设备内的计算机可读存储介质中。
用于执行实施例的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据,或者以一种或多种编程语言(包括面向对象的编程语言,诸如Smalltalk、C++等,以及过程编程语言,诸如“C”编程语言或类似的编程语言)的任意组合编写的源代码或目标代码。计算机可读程序指令可以完全在用户的计算机上执行,部分在用户的计算机上执行,作为独立的软件包执行,部分在用户的计算机上并且部分在远程计算机上执行,或者完全在远程计算机或服务器上执行。在后一种情景下,远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机,或者可以连接到外部计算机(例如,使用互联网服务提供商通过互联网)。在一些实施例中,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化,以便执行本实施例的各方面。
本文根据方法、装置(系统)以及计算机程序产品的流程图图示和/或框图描述了实施例的各方面。将理解,流程图示和/或框图中的每个框以及流程图示和/或框图中的框的组合可以由计算机可读程序指令来实现。
这些计算机可读程序指令可以被提供给计算机或其他可编程数据处理装置的处理器以产生机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中,其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作,使得其中存储有指令的计算机可读存储介质包括包含实现流程图和/或框图中的一个或多个框中指定的功能/动作的各方面的指令的制品。
计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上,以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图中的一个或多个框中指定的功能/动作。
附图中的流程图和框图图示了根据各种实施例的系统、方法以及计算机程序产品的可能的实现方式的架构、功能和操作。在这点上,流程图或框图中的每个框可以表示指令的模块、段或部分,其包括用于实现指定的(一个或多个)逻辑功能的一个或多个可执行指令。在一些替代实施方式中,框中所注明的功能可以不按图中所注明的次序发生。例如,连续示出的两个框实际上可以作为一个步骤来实现,同时、基本同时、以部分或全部时间重叠的方式执行,或者这些框有时可以以相反的顺序执行,这取决于所涉及的功能。还将注意,框图和/或流程图图示中的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。
除非明确声明,否则权利要求中对单数元件的引用不旨在表示“一个且仅一个”,而是表示“一个或多个”。对本领域普通技术人员来说当前已知或以后将知晓的上述示例性实施例的元件的所有结构和功能等同物都旨在被本文的权利要求所包含。除非使用短语“装置用于”或“步骤用于”明确地陈述该元素,否则本文的权利要求元素不应被解释为符合35U.S.C.第112节第六段的规定。
本文所使用的术语仅出于描述特定实施例的目的,并不旨在限制实施例。如本文所用,单数形式“一”、“一个”以及“该”旨在也包括复数形式,除非上下文另有明确指示。还将理解,术语“包括”和/或“包含”在本说明书中使用时,指定所陈述的特征、整数、步骤、操作、元件和/或组件的存在,但不排除其中一个或多个其它特征、整数、步骤、操作、元件、组件和/或其群组的存在或添加。
以下权利要求中的所有装置或步骤加功能元件的对应的结构、材料、动作和等同物旨在包括用于与如具体要求保护的其它要求保护的元件组合地执行功能的任何结构、材料或动作。已经出于说明和描述的目的呈现了对本实施例的描述,但并非旨在是穷尽性的或限于所公开形式的实施例。在不脱离实施例的范围的情况下,许多修改和变化对于本领域普通技术人员将是显而易见的。选择和描述实施例是为了最好地解释实施例的原理和实际应用,并且使本领域的其他普通技术人员能够理解具有各种修改的各种实施例的实施例适合于预期的特定用途。
Claims (20)
1.一种使用计算设备来改进由自然语言问答系统生成的回答的方法,所述方法包括:
由计算设备接收自然语言问答系统中的多个问题;
由所述计算设备生成所述多个问题的多个回答;
由所述计算设备利用所生成的多个回答来构造新的训练集,每个回答与所述多个问题中的对应问题进行比较;
由所述计算设备利用界定所生成的多个回答中的一个或多个回答的跨度的一个或多个标记来扩充所述新的训练集;以及
由所述计算设备利用所扩充的新的训练集来训练新的自然语言问答系统。
2.根据权利要求1所述的方法,还包括:
使用用于所述新的自然语言问答系统的所述扩充的新的训练集来校正所述自然语言问答系统的读取器模型的回答跨度。
3.根据权利要求2所述的方法,还包括:
将校正所述回答跨度的所述新的自然语言问答系统级联在所述自然语言问答系统之后。
4.根据权利要求3所述的方法,还包括:
由校正所述回答跨度的所述新的自然语言问答系统确定所述回答跨度是否应该被校正;
其中,所述新的自然语言问答系统的校正器模型校正所述回答跨度,产生改进的回答跨度。
5.根据权利要求4所述的方法,其中所述校正器模型使用神经网络以便生成所述改进的回答跨度。
6.根据权利要求4所述的方法,还包括:
针对所述回答跨度不应该被校正的确定,基于将基础事实(GT)回答界定为所述新的自然语言问答系统的输入,指示不需要校正,从所述多个回答中的每个原始回答创建新的示例回答。
7.根据权利要求6所述的方法,还包括:
使用前k个不正确回答预测中的多个来为每个不正确回答预测创建示例回答,其中,所述输入是所述读取器模型的预测回答跨度,并且目标回答是GT回答。
8.根据权利要求5所述的方法,其中,所生成的多个回答包括预测的回答,并且所述一个或多个标记在上下文中标记所预测的多个回答,以便由所述校正器模型预测新的回答。
9.一种用于改进由自然语言问答系统生成的回答的计算机程序产品,所述计算机程序产品包括具有体现在其中的程序指令的计算机可读存储介质,所述程序指令能够由处理器执行以使所述处理器:
由所述处理器接收自然语言问答系统中的多个问题;
由所述处理器生成所述多个问题的多个回答;
由所述处理器利用所生成的多个回答来构造新的训练集,每个回答与所述多个问题中的对应问题进行比较;
由所述处理器利用界定所生成的多个回答中的一个或多个回答的跨度的一个或多个标记来扩充所述新的训练集;以及
由所述处理器利用所扩充的新的训练集来训练新的自然语言问答系统。
10.根据权利要求9所述的计算机程序产品,其中,能够由所述处理器执行的所述程序指令还使所述处理器:
由所述处理器使用用于所述新的自然语言问答系统的所述扩充的新的训练集来校正所述自然语言问答系统的读取器模型的回答跨度。
11.根据权利要求10所述的计算机程序产品,其中,能够由所述处理器执行的所述程序指令还使所述处理器:
由所述处理器将校正所述回答跨度的所述新的自然语言问答系统级联在所述自然语言问答系统之后。
12.根据权利要求11所述的计算机程序产品,其中,能够由所述处理器执行的所述程序指令还使所述处理器:
由所述处理器使用校正所述回答跨度的所述新的自然语言问答系统来确定所述回答跨度是否应该被校正;
其中,所述新的自然语言问答系统的校正器模型校正所述回答跨度,产生改进的回答跨度,并且所述校正器模型使用神经网络以便生成所述改进的回答跨度。
13.根据权利要求12所述的计算机程序产品,其中,能够由所述处理器执行的所述程序指令还使所述处理器:
由处理器针对所述回答跨度不应该被校正的确定,基于将基础事实(GT)回答界定为所述新的自然语言问答系统的输入,指示不需要校正,从所述多个回答中的每个原始回答创建新的示例回答。
14.根据权利要求13所述的计算机程序产品,其中,能够由所述处理器执行的所述程序指令还使所述处理器:
由所述处理器使用前k个不正确回答预测中的多个来为每个不正确回答预测创建示例回答,其中,所述输入是所述读取器模型的预测回答跨度,并且目标回答是所述GT回答。
15.根据权利要求12所述的计算机程序产品,其中,所生成的多个回答包括预测的回答,并且所述一个或多个标记在上下文中标记所预测的多个回答,以便由所述校正器模型预测新的回答。
16.一种装置,包括:
存储器,被配置为存储指令;和
处理器,被配置为执行所述指令以:
接收自然语言问答系统中的多个问题;
生成所述多个问题的多个回答;
利用所生成的多个回答来构造新的训练集,每个回答与所述多个问题中的对应问题进行比较;
用界定所生成的多个回答中的一个或多个回答的跨度的一个或多个标记来扩充所述新的训练集;以及
用所扩充的新的训练集来训练新的自然语言问答系统。
17.根据权利要求16所述的装置,其中,所述处理器还被配置为执行所述指令以:
使用用于所述新的自然语言问答系统的所述扩充的新的训练集来校正所述自然语言问答系统的读取器模型的回答跨度;和
将校正所述回答跨度的新的自然语言问答系统级联在所述自然语言问答系统之后。
18.根据权利要求17所述的装置,其中,所述处理器还被配置为执行所述指令以:
使用校正所述回答跨度的所述新的自然语言问答系统来确定所述回答跨度是否应该被校正;
其中,所述新的自然语言问答系统的校正器模型校正所述回答跨度,产生改进的回答跨度,并且所述校正器模型使用神经网络以便生成所述改进的回答跨度。
19.根据权利要求18所述的装置,其中,所述处理器还被配置为执行所述指令以:
针对所述回答跨度不应该被校正的确定,基于将基础事实(GT)回答界定为所述新的自然语言问答系统的输入,指示不需要校正,从所述多个回答中的每个原始回答创建新的示例回答;以及
使用前k个不正确回答预测中的多个来为每个不正确回答预测创建示例回答,其中,所述输入是所述读取器模型的预测回答跨度,并且目标回答是所述GT回答。
20.根据权利要求18所述的装置,其中,所生成的多个回答包括预测的回答,并且所述一个或多个标记在上下文中标记所预测的多个回答,以便由所述校正器模型预测新的回答。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/090,724 US20220138559A1 (en) | 2020-11-05 | 2020-11-05 | Answer span correction |
US17/090,724 | 2020-11-05 | ||
PCT/CN2021/125325 WO2022095713A1 (en) | 2020-11-05 | 2021-10-21 | Answer span correction |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116324929A true CN116324929A (zh) | 2023-06-23 |
Family
ID=81380163
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180071355.8A Pending CN116324929A (zh) | 2020-11-05 | 2021-10-21 | 回答跨度校正 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20220138559A1 (zh) |
JP (1) | JP2023547802A (zh) |
CN (1) | CN116324929A (zh) |
DE (1) | DE112021005782T5 (zh) |
GB (1) | GB2614861A (zh) |
WO (1) | WO2022095713A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11423300B1 (en) * | 2018-02-09 | 2022-08-23 | Deepmind Technologies Limited | Selecting actions by reverting to previous learned action selection policies |
US11651161B2 (en) * | 2020-02-13 | 2023-05-16 | International Business Machines Corporation | Automated detection of reasoning in arguments |
CN112509690B (zh) | 2020-11-30 | 2023-08-04 | 北京百度网讯科技有限公司 | 用于控制质量的方法、装置、设备和存储介质 |
US12086713B2 (en) * | 2021-07-28 | 2024-09-10 | Google Llc | Evaluating output sequences using an auto-regressive language model neural network |
US12008001B2 (en) * | 2022-05-27 | 2024-06-11 | Snowflake Inc. | Overlap queries on a distributed database |
GB202214162D0 (en) * | 2022-09-28 | 2022-11-09 | Samsung Electronics Co Ltd | Method and system for neuro-symbolic error correction |
US20240256906A1 (en) * | 2023-01-27 | 2024-08-01 | Samsung Electronics Co., Ltd. | Learning to combine explicit diversity conditions for effective question answer generation |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776649B (zh) * | 2015-11-24 | 2020-02-14 | 中科国力(镇江)智能技术有限公司 | 一种基于可视化流程图的智能问答多轮交互方法和系统 |
US10699215B2 (en) * | 2016-11-16 | 2020-06-30 | International Business Machines Corporation | Self-training of question answering system using question profiles |
US20180196921A1 (en) * | 2017-01-12 | 2018-07-12 | International Business Machines Corporation | Abbreviation Expansion in Clinical Notes Using Frequency and Context |
US11537645B2 (en) * | 2018-01-30 | 2022-12-27 | Oracle International Corporation | Building dialogue structure by using communicative discourse trees |
US11775775B2 (en) * | 2019-05-21 | 2023-10-03 | Salesforce.Com, Inc. | Systems and methods for reading comprehension for a question answering task |
US11501085B2 (en) * | 2019-11-20 | 2022-11-15 | Oracle International Corporation | Employing abstract meaning representation to lay the last mile towards reading comprehension |
US11640505B2 (en) * | 2019-12-09 | 2023-05-02 | Salesforce.Com, Inc. | Systems and methods for explicit memory tracker with coarse-to-fine reasoning in conversational machine reading |
-
2020
- 2020-11-05 US US17/090,724 patent/US20220138559A1/en active Pending
-
2021
- 2021-10-21 JP JP2023522789A patent/JP2023547802A/ja active Pending
- 2021-10-21 GB GB2305949.6A patent/GB2614861A/en not_active Withdrawn
- 2021-10-21 DE DE112021005782.0T patent/DE112021005782T5/de active Pending
- 2021-10-21 CN CN202180071355.8A patent/CN116324929A/zh active Pending
- 2021-10-21 WO PCT/CN2021/125325 patent/WO2022095713A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
JP2023547802A (ja) | 2023-11-14 |
US20220138559A1 (en) | 2022-05-05 |
WO2022095713A1 (en) | 2022-05-12 |
GB2614861A (en) | 2023-07-19 |
GB202305949D0 (en) | 2023-06-07 |
DE112021005782T5 (de) | 2023-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11093707B2 (en) | Adversarial training data augmentation data for text classifiers | |
CN116324929A (zh) | 回答跨度校正 | |
US11734584B2 (en) | Multi-modal construction of deep learning networks | |
US20220027707A1 (en) | Subgraph guided knowledge graph question generation | |
US11645470B2 (en) | Automated testing of dialog systems | |
US11783131B2 (en) | Knowledge graph fusion | |
US10902208B2 (en) | Personalized interactive semantic parsing using a graph-to-sequence model | |
US11189269B2 (en) | Adversarial training data augmentation for generating related responses | |
US20210287102A1 (en) | Interpretable knowledge contextualization by re-weighting knowledge graphs | |
US11755657B2 (en) | Training a question-answer dialog system to avoid adversarial attacks | |
US11669680B2 (en) | Automated graph based information extraction | |
US11704486B2 (en) | Abstract meaning representation parsing with graph translation | |
US11176333B2 (en) | Generation of sentence representation | |
US11645526B2 (en) | Learning neuro-symbolic multi-hop reasoning rules over text | |
US20230297855A1 (en) | Rule mining using virtual knowledge graph created from text | |
US11176321B2 (en) | Automated feedback in online language exercises | |
US20220309107A1 (en) | Self-supervision in table question answering | |
US11675980B2 (en) | Bias identification and correction in text documents | |
US11604640B2 (en) | Code refactor renaming recommender | |
US20210192133A1 (en) | Auto-suggestion of expanded terms for concepts | |
CN111984781A (zh) | 偏见最小化的自动概括 | |
US11853702B2 (en) | Self-supervised semantic shift detection and alignment | |
US11138383B2 (en) | Extracting meaning representation from text | |
US20230368510A1 (en) | Image grounding with modularized graph attentive networks | |
US20220414448A1 (en) | Cross-lingual knowledge transfer learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |