CN110084323A

CN110084323A - 端到端语义解析系统及训练方法

Info

Publication number: CN110084323A
Application number: CN201910385847.9A
Authority: CN
Inventors: 俞凯; 曹瑞升
Original assignee: Shanghai Jiaotong University; AI Speech Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2019-05-09
Filing date: 2019-05-09
Publication date: 2019-08-02
Anticipated expiration: 2039-05-09
Also published as: CN110084323B

Abstract

本发明公开一种端到端语义解析系统训练方法包括：向所述第一解析模型输入第一形式待解析内容；确定对应于所述第一形式待解析内容的多个第二形式待解析内容；计算对应于所述多个第二形式待解析内容多个有效性回报；第二解析模型根据多个第二形式待解析内容生成多个第一形式重构解析内容；根据多个第一形式重构解析内容计算得到多个重构回报；根据多个有效性回报和多个重构回报确定总回报；基于总回报采用策略梯度下降更新第一解析模型和第二解析模型的网络参数。本发明中得到的两类反馈信号用于训练两个策略网络的参数，从而网络不仅能够从有监督数据中学习，也能充分利用无监督数据。

Description

端到端语义解析系统及训练方法

技术领域

本发明涉及人工智能技术领域，尤其涉及一种端到端语义解析系统及训练方法。

背景技术

语义解析，是将自然语言问句转化为逻辑形式的任务。逻辑形式，是一种语义表达式，它包含了问句中所有的重要语义信息，通常是一种可执行语句，比如数据库查询语句(SQL)、Lambda表达式，能够被程序直接执行，从数据库中检索结果并返回。由于和知识库的紧耦合特性，语义解析常常应用于基于知识图谱的自动问答领域。

目前的语义解析系统大致可以分为三类:基于规则的语义解析系统，基于组合范畴语法(CCG)的统计语义解析系统和基于端到端框架的神经网络语义解析系统。

基于规则的语义解析系统，将自然语言问句和自定义的规则模板进行匹配(规则模板通常是类似正则表达式的通用语法)，挑选最合适的规则，提取相应的逻辑形式框架并填充相应的槽值。比如，有一个模板规则是 “${#person}的？毕业(学校|大学)是(哪儿|哪里|哪个|什么)”，对应的逻辑形式(SQL)框架为“select university from personwhere name＝${#person}”，问句“姚晓明毕业大学是什么”匹配上该模板，提取对应的框架并用实体值“姚晓明”填充，得到最终的逻辑形式(实际应用中的规则模板和逻辑形式可以呈现多种形式)。

基于组合范畴语法(CCG)的语义解析系统，通过自定义词汇范畴 (categories)和组合规则(combinatory rules)进行解析。其中，词汇范畴就是词汇对应的函数类型，CCG语法中是词汇到范畴的映射；组合规则包括函数应用规则、组合规则、类型提升规则。针对每一个问句，解析系统尝试赋予其中每一个单词范畴，通过组合规则得到从句法到语义的逻辑形式接口。统计模型的训练，目标是学习每一个词汇对应的范畴，最大化训练集的极大似然概率。

近年来，随着神经网络的盛行和端到端模型(Seq2Seq)框架在各个领域上的广泛应用，神经网络语义解析也逐渐崭露头角。该方法将目标输出逻辑形式(树或图结构)看作一个字符串的序列，将结构化的输出转化为扁平化的序列，利用神经机器翻译(NMT)中通用的Encoder-Decoder框架进行解析。比如输入问句“从北京到上海的航班有哪些”，编码网络对该问句进行编码，解码网络根据编码信息，生成目标Lambda表达式的字符串序列“(lambda$0e(and(flight$0)(from$0北京)(to$0上海)))”。

(1).对先验知识的依赖

首先，基于规则和组合范畴语法的方法，极大程度地依赖于先验知识。这些先验知识包括逻辑形式的语义、领域规则的设计问题、实体类型和值的选取和训练特征的构造等。这些都要求程序员和算法工程师对目标领域有着足够的经验，并且是一名语言学上的专家，学习成本太昂贵。

(2).泛化性能差

其次，前两种方法对新问句的泛化性能较差，一旦遇到规则模板没有包括的问句或是数据集中没有出现过的训练样本，就不能或很难解析出正确的逻辑形式。

(3).领域迁移困难

上述的三种方法，当语义解析系统迁移到一个新的领域时，需要额外去构造新的规则模板、统计新词汇、编制新的特征模板、收集并人工标注新的数据集以供训练等，冷启动问题尤为显著。

(4).有标注数据集的稀缺

有标注数据集的稀缺成为制约基于统计和神经网络两种方法性能的一大因素。由于逻辑形式的标注尤其费时费力，如何获取大量有标注的文本也是一大难题。

(5).受限的解码

区别于NMT解码的过程，基于神经网络的语义解析系统具有受限的解码过程这一要求。所谓受限的解码，要求端到端解析出来的逻辑形式序列不仅符合语法规范(比如括号的匹配)，而且语义上也要符合类型一致性等限制条件。

(1).逻辑形式本质上的树状，甚至是图状结构，导致语义解析问题尤其困难。同时，结构化的输出要求以及类型多样的实体和限制条件使得无论是泛化能力还是迁移能力都很难得到提高。

(2).逻辑形式中蕴含的复杂语义使得标注问题难以解决，标注人不仅需要理解问句中的语义，还需要将其翻译为结构严谨的语义表达式，不经过系统地培训和学习无法胜任。

(3).端到端神经网络语义解析虽然在一定程度上缓解了泛化性能差这一问题，但纯粹的NMT序列化解析过程把诸如“(”和“)”这种符号都作为输出空间的标识符，使得生成的逻辑形式常常不符合定义的语法或语义规范，网络浪费了大量算力用于生成不合法的字符串序列。

发明内容

本发明实施例提供一种端到端语义解析系统及训练方法，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种端到端语义解析系统训练方法，所述语义解析系统包括第一解析模型和第二解析模型，所述方法包括：

向所述第一解析模型输入第一形式待解析内容；

确定对应于所述第一形式待解析内容的多个第二形式待解析内容；

计算对应于所述多个第二形式待解析内容多个有效性回报；

所述第二解析模型根据所述多个第二形式待解析内容生成多个第一形式重构解析内容；

根据所述多个第一形式重构解析内容计算得到多个重构回报；

根据所述多个有效性回报和所述多个重构回报确定总回报；

基于所述总回报采用策略梯度下降更新所述第一解析模型和所述第二解析模型的网络参数。

第二方面，本发明实施例提供一种端到端语义解析系统，包括：

第一解析模型，用于接收第一形式待解析内容，并确定对应于所述第一形式待解析内容的多个第二形式待解析内容；

有效性回报计算模块，用于计算对应于所述多个第二形式待解析内容多个有效性回报；

第二解析模型，用于根据所述多个第二形式待解析内容生成多个第一形式重构解析内容；

重构回报计算模块，用于根据所述多个第一形式重构解析内容计算得到多个重构回报；

总回报计算模块，用于根据所述多个有效性回报和所述多个重构回报确定总回报；

参数更新模块，用于基于所述总回报采用策略梯度下降更新所述第一解析模型和所述第二解析模型的网络参数。

第三方面，本发明实施例提供一种存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项端到端语义解析系统训练方法。

第四方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明上述任一项端到端语义解析系统训练方法。

第五方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项端到端语义解析系统训练方法。

本发明实施例的有益效果在于：挖掘两种单边语料(自然语言问句和逻辑形式)的共性特征进行数据增强，通过对偶学习的框架来充分利用无标注数据，提高解析的精度。对偶学习框架的主任务是语义解析，对偶任务是问句生成，两个对称的模型形成一个闭环。以从问句出发的闭环为例，通过语义解析模型生成逻辑形式，再由解析出的逻辑形式尝试去重构原来的问句，闭环中得到的两类反馈信号用于训练两个策略网络的参数，从而网络不仅能够从有监督数据中学习，也能充分利用无监督数据。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的端到端语义解析系统训练方法的一实施例的流程图；

图2为本发明的端到端语义解析系统的一实施例的原理框图；

图3为本发明一实施例中的基于对偶学习的语义解析框架；

图4为本发明的编解码器的一实施例的原理示意图；

图5为通过改变ATIS标记数据的比率来测试精度对比图；

图6为本发明的电子设备的一实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“装置”、“系统”等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

针对于本发明背景技术中所提及的技术问题现有技术采取以下方法：

(1).针对泛化性能差、先验知识依赖、特征工程庞大等问题，通常借助端到端神经网络来避免人工构造特征、设计规则模板。

(2).针对数据集稀缺的问题，常用的方法有：通过“SCFG”语法从原始数据中构造新的样本；或设计一套通用的众包标注规范流程来简化数据集的收集过程；再者通过不同领域数据之间的共性，通过交叉领域学习来减少对目标领域数据集大小的依赖。

(3).对于受限解码过程，已有的做法有：将Seq2Seq的网络结构改造成Seq2Tree的层次化解码网络；或解码网络细分为两步走，首先生成抽象的逻辑形式框架，然后基于已有的输入问句和抽象框架序列生成具体的逻辑形式；又或者将目标字符串序列的生成过程改为语义图的构建过程，解码空间是构造语义图的操作序列，比如“添加某个节点”、“添加某条边”。

以上的三种方法，将更多关注点放在了生成更多有标注的数据和完善解码网络的复杂结构本身，忽视了无标注数据的作用，以及只提供奖励信号使得解码网络自我学习逻辑形式受限结构的能力。

语义解析将自然语言问句转换为结构化逻辑形式。训练数据稀缺仍然是该领域最严重的问题之一。在本发明中，设计了一个具有对偶学习算法的语义解析框架，它使语义解析器能够通过对偶学习游戏充分利用数据 (包括有标注数据甚至无标注数据)。主模型(语义解析)和对偶模型(逻辑形式到问句)之间的这种游戏对参数相互正则化，并且可以从一些先验知识获得反馈信号。通过利用这种逻辑形式结构上的先验知识，我们在表面和语义层面提出了一种新的奖励信号，它使得网络倾向于生成完整且合理的逻辑形式。实验结果表明，本专利的方法在ATIS数据集上取得了新的最好的结果，并在OVERNIGHT数据集上取得了具有竞争力的结果。

如图1所示，本发明的实施例提供一种端到端语义解析系统训练方法，所述语义解析系统包括第一解析模型和第二解析模型，所述方法包括：

S10、向所述第一解析模型输入第一形式待解析内容；

S20、确定对应于所述第一形式待解析内容的多个第二形式待解析内容；

S30、计算对应于所述多个第二形式待解析内容多个有效性回报；

S40、所述第二解析模型根据所述多个第二形式待解析内容生成多个第一形式重构解析内容；

S50、根据所述多个第一形式重构解析内容计算得到多个重构回报；

S60、根据所述多个有效性回报和所述多个重构回报确定总回报；

S70、基于所述总回报采用策略梯度下降更新所述第一解析模型和所述第二解析模型的网络参数。

在一些实施例中，当所述第一解析模型为语义解析模型，所述第二解析模型为问句生成模型时，所述第一形式待解析内容为自然语言问句，所述第二形式待解析内容为对应于自然语言问句的逻辑形式内容；

当所述第一解析模型为问句生成模型，所述第二解析模型为语义解析模型时，所述第二形式待解析内容为自然语言问句，所述第一形式待解析内容为对应于自然语言问句的逻辑形式内容。

本发明实施例中，挖掘两种单边语料(自然语言问句和逻辑形式)的共性特征进行数据增强，通过对偶学习的框架来充分利用无标注数据，提高解析的精度。对偶学习框架的主任务是语义解析，对偶任务是问句生成，两个对称的模型形成一个闭环。以从问句出发的闭环为例，通过语义解析模型生成逻辑形式，再由解析出的逻辑形式尝试去重构原来的问句，闭环中得到的两类反馈信号用于训练两个策略网络的参数，从而网络不仅能够从有监督数据中学习，也能充分利用无监督数据。

此外，将逻辑形式的结构化信息融入奖励回报的信号之中，称之为有效性回报，使得策略网络(即解码网络)能够自主地从奖励机制中学习到逻辑形式的结构限制，而非显示地在网络结构中引入这种结构上的先验知识。

在一些实施例中，当所述第一解析模型为语义解析模型，所述第二解析模型为问句生成模型时，所述第一形式待解析内容为自然语言问句，所述第二形式待解析内容为对应于自然语言问句的逻辑形式内容，所述有效性回报为：其中，y表示逻辑形式内容，当y在表面和语义级别没有错误时返回1，否则返回0。

在一些实施例中，当所述第一解析模型为问句生成模型，所述第二解析模型为语义解析模型时，所述第二形式待解析内容为自然语言问句，所述第一形式待解析内容为对应于自然语言问句的逻辑形式内容，所述有效性回报为：其中，x表示问句，LM_q(·)是在预定数据集的所有问句上预训练的语言模型。

在一些实施例中，本发明的端到端语义解析系统训练方法还包括：采用有标记的训练样本对对所述第一解析模型和/或第二解析模型进行参数更新。

本实施例中，为了保持学习过程稳定并防止模型崩溃，我们随机选择样本对，通过最大似然估计(MLE)微调主模型和对偶模型。

在一些实施例中，第一解析模型和/或第二模型采用Attention机制的 Seq2Seq模型，并引入pointer network的复制机制，以将原输入中的句子直接复制到目标输出之中。

在一些实施例中，主模型(第一解析模型)和对偶模型(第二解析模型)都采取传统的使用Attention机制的Seq2Seq模型，也引入了pointer network的复制机制，从而可以将原输入中的句子直接复制到目标输出之中。

编码和解码部分网络使用传统的LSTM单元，计算上下文语义向量时采用前馈网络，而生成分布和复制分布的连接系数也通过sigmoid阀门函数控制，实现“软复制”。从编码网络到解码网络的状态初始化使用反向的最终状态，Attention向量在解码器的LSTM网络之后拼接上。

特别地，由于逻辑形式中有些实体使用特定的URI标识符，主模型无法直接从输入问句复制到输出逻辑形式中，因此，引入实体映射机制，在复制之后将其替换为对应的实体标识符URI。

本方案通过对偶学习框架，应用于语义解析这一信息损失较少的领域，并取得了显著的解析精度提升，从而解决了语义解析领域长期的依赖于有监督数据、标注数据稀缺、受限解码过程困难等难题。

在对偶学习的框架之中，强化学习过程不再仅仅依赖于有标注的样本对，即使是无标注的问句和逻辑形式也能通过两个闭环学习挖掘出潜在的共性特征；自行设计的逻辑形式有效性回报还能引入受限解码的思想。此外，本框架还能与各种最新的主模型/对偶模型兼容，具有较大的提升空间。

对偶学习框架是两个代理人互相合作从而达到最大期望回报的游戏。主模型和对偶模型分别作为这两个代理的策略函数，通过策略梯度下降来学习网络的参数。在衡量逻辑形式的有效性时，语法语义检测指示函数将结构先验知识融入到反馈信号之中，使得网络能够自主学习受限结构和解码过程。

如图2所示，本发明的实施例提供一种端到端语义解析系统200，包括：

第一解析模型210，用于接收第一形式待解析内容，并确定对应于所述第一形式待解析内容的多个第二形式待解析内容；

有效性回报计算模块220，用于计算对应于所述多个第二形式待解析内容多个有效性回报；

第二解析模型230，用于根据所述多个第二形式待解析内容生成多个第一形式重构解析内容；

重构回报计算模块240，用于根据所述多个第一形式重构解析内容计算得到多个重构回报；

总回报计算模块250，用于根据所述多个有效性回报和所述多个重构回报确定总回报；

参数更新模块260，用于基于所述总回报采用策略梯度下降更新所述第一解析模型和所述第二解析模型的网络参数。

语义解析是将自然语言问句映射到逻辑形式的任务。逻辑形式是计算机理解的一种语义表示，通常可由执行程序执行以获得答案。循环神经网络(RNN)在各种NLP任务中的成功应用为将语义解析视为序列到序列 (Seq2seq)问题提供了强有力的推动力。这种方法以端到端的方式基于输入问句生成逻辑形式，但仍留下两个主要问题：(1)缺少标记数据和(2) 约束解码。

首先，语义解析仍然缺乏足够的标记数据，因为语义解析的数据注释是一项劳动密集且耗时的任务。特别是逻辑形式对人类注释不友好。

其次，与自然语言句子不同，逻辑形式是严格的结构。例如，“显示从北京到上海的航班”的lambda表达式是(lambda$0e(and(from$0北京)(to$0上海)(flight$0)))。如果我们对解码过程不做任何限制，生成的逻辑形式就会在表面结构或语义层面不完整，甚至完全歪曲。

表面结构：生成的序列应该构造为完整的逻辑形式。例如，应匹配左右括号以强制生成的序列为有效树。

语义层面：尽管生成的序列在表面级别是合法的逻辑形式，但它可能是无意义的或语义错误的。例如，预定义的二元谓词flight接受不超过两个参数。第一个参数必须代表一个航班，第二个参数应该是一个城市。

为避免产生不完整或语义错误的逻辑形式，必须约束输出空间。

在本专利中，提出一种基于对偶学习的语义解析框架(参见图3)来解决上述问题。在这个框架中，有一个主任务(问句到逻辑形式)和一个对偶任务(逻辑形式到问句)。它们可以形成一个闭环，并产生信息反馈。即使没有监督，也可以发出信号来训练主模型和对偶模型。在这个闭环中，主模型和对偶模型通过在一个模型中生成中间输出然后在另一个模型中检查它来限制或正则化彼此。实际上，它可以被视为一种数据增强方法。因此，它可以以更有效的方式利用未标记的数据(问句或合成的逻辑形式)，这有助于缓解数据不足的问题。

在对偶学习框架中，主模型和对偶模型被表示为两个代理，并通过强化学习过程相互合作学习。为了强制生成的逻辑形式完整和格式良好，本发明通过检查主模型在表面和语义级别的输出来新提出一种有效性回报。

并且在两个标准数据集(ATIS和OVERNIGHT)上评估本发明的方法。结果表明，本发明的方法可以在具有完全标记数据的两个数据集上获得对强基线的显著改进，甚至优于ATIS的最优结果。通过从规则或模板合成的其他逻辑形式，本发明的方法与OVERNIGHT上最先进的系统相比也具有竞争力。此外，本发明的方法与各种语义解析模型兼容。申请人还进行了广泛的实验，以进一步调查本发明在半监督环境中的框架，并弄清楚它的工作原理。

本专利的主要贡献总结如下：

介绍了一种基于对偶学习的创新语义解析框架，该框架可以充分利用数据(标记或未标记)，并将各种先验知识作为反馈信号。

本发明进一步提出了一种新的有效性回报，侧重于逻辑形式的表面和语义，这是一个反馈信号，用于表明生成的逻辑形式是否格式良好。它涉及关于域中预定义的逻辑形式的结构的先验知识。

本发明在ATIS和OVERNIGHT基准测试中进行了大量实验。结果表明，本发明的方法在ATIS数据集上实现了新的最先进的性能，并在 OVERNIGHT数据集上获得了竞争性的表现。

关于语义解析的主任务和对偶任务：

在讨论语义解析的对偶学习之前，首先详细介绍主任务和对偶任务。主任务和对偶任务以基于注意力的编码器-解码器架构(即Seq2seq)为模型。本发明还包括复制机制来处理未知的字符。

如图4所示，为本发明的编解码器的一实施例的原理示意图，主任务是语义解析，它将问句转换为逻辑形式(Q2LF)。设x＝x₁……x_|x|表示问句，y＝y₁……y_|y|表示逻辑形式。利用编码器将问句x编码成矢量表示，并且解码器学习根据编码矢量生成逻辑形式y。

编码器，每个单词x_i通过单词嵌入函数ψ(·)映射到固定维向量，然后馈入双向LSTM。隐状态的向量在第i个时间步骤通过以下方式递归计算：

其中，[·；·]表示向量级联，h_i∈R²ⁿ，n是隐藏层的大小，f_LSTM是 LSTM函数。

解码器是具有注意力机制的单向LSTM。第t个时间步的隐状态由计算，其中是逻辑形式的标记嵌入函数， s_t∈Rⁿ。第一时间步的隐状态初始化为解码器的当前步骤t的隐状态关于编码器中的第i步隐状态的注意力权重是：

其中v，b_a∈Rⁿ，W₁∈R^n×2n，W₂∈R^n×n是参数。然后我们通过以下公式(5)和(6)计算词汇分布P_gen(y_t|y<t，x)：

P_gen(y_t|y_＜t，x)＝softmax(W_o[s_t；c_t]+b_o) (6)

其中，W_o∈R^|vy|×3n,b_o∈R^|vy|,|v_y|是输出词汇的大小。一旦发出序列结束标记“EOS”，则生成结束。

本发明还包括复制机制，以改进模型泛化。预测的字符来自固定输出词汇V_y或原始输入词x。本发明使用sigmoid门函数σ在每个步骤t的生成和复制之间做出软判决：

其中，g_t∈[0,1]，v_g是权重向量，b_g是标量偏差。P_copy(y_t|y_<t，x) 分布将描述如下。

实体映射

虽然复制机制可以处理未知单词，但许多生僻单词不能直接复制成逻辑形式的一部分。例如，kobe bryant(科比布莱恩特)在OVERNIGHT中表示为en.player.kobe_bryant。通常，知识库中的统一资源标识符标识实体。因此，在复制之前包括从生僻单词到URI的映射。数学上，公式(8)中的P_copy计算方法如下：

a_i ^t是解码步骤t的位置i的注意权重，KB(·)是一个类似字典的函数，它将特定名词短语的每个单词映射到知识库中的相应实体标记。

对偶任务(LF2Q)是主任务的反转，旨在生成给定逻辑形式的自然语言问句。本发明还利用基于注意力的编码器-解码器架构和复制机制来构建对偶模型，而没有用于问题生成的实体映射技术。

语义解析的对偶学习

本发明使用一个代理来表示主任务的模型(Q2LF)和另一个代理来表示对偶任务的模型(LF2Q)，然后在闭环中设计一个双代理游戏，即使只有问句或逻辑形式可用，它也可以为主模型和对偶模型提供高质量的反馈。由于反馈回报可能是不可微分的，因此应用基于策略梯度的强化学习算法进行优化。

两个代理，Q2LF和LF2Q，参与具有两个有向闭环的协作游戏，如图 3所示。一个闭环，问句->逻辑形式->问句，从问句开始。由代理Q2LF 生成可能的逻辑形式，并由LF2Q尝试重建原始问句。另一个闭环，逻辑形式->问句->逻辑形式，反向开始。每个代理将根据定向闭环中定义的奖励函数获得质量反馈。

关于学习算法：假设具有完全标记了的数据集T＝{<x，y>}，未标记的数据集Q(仅包含问句可用)，未标记的数据集LF(仅包含逻辑形式可用)。本发明首先通过最大似然估计(MLE)在T上预先训练主模型 Q2LF和对偶模型LF2Q。令Θ_Q2LF和Θ_LF2Q分别表示Q2LF和LF2Q的所有参数。本发明的学习算法由三部分组成：

关于闭环从问句开始的情况：本专利从Q∪T中随机抽样问句x。给定x，Q2LF模型可以通过波束搜索生成k个可能的逻辑形式y₁，y₂......y_k (k是波束大小)。对于每个y_i，可以获得由特定奖励函数计算的有效性回报R_q ^val(y_i)(标量)。在将y_i馈入LF2Q之后，最终得到重构回报R_q ^rec (x，y_i)，它强制生成的问句尽可能类似于x。

利用超参数α来平衡这两个回报：

r_i ^q＝αR_q ^val(y_i)+(1-α)R_q ^rec(x，y_i)，其中，α属于[0,1]。

通过利用策略梯度下降，Θ_Q2LF和Θ_LF2Q的随机梯度计算如下：

关于闭环从逻辑形式开始的情况：本专利从LF∪T中随机抽取逻辑形式y。给定y，LF2Q模型通过波束搜索生成k个可能的问句x₁，x₂......x_k。对于每个x_i，本专利可以获得有效性回报R_lf ^val(x_i)(标量)。在将x_i输入Q2LF之后，本专利还可以获得重构回报R_lf ^rec(y，x_i)，这会强制生成的逻辑形式尽可能类似于y。

超参数β被用来平衡这两个回报：

r_i ^lf＝βR_lf ^val(x_i)+(1-β)R_lf ^rec(y，x_i)，其中，β属于[0,1]。

前两个阶段是无监督学习过程，不需要标记数据。如果在预训练之后没有对主模型和对偶模型的监督，那么这两个模型将会歪曲，特别是当T 受限时。第三阶段，为了保持学习过程稳定并防止模型崩溃，我们随机选择样本对，通过最大似然估计(MLE)微调主模型和对偶模型。

奖励设计，每个闭环中有两种类型的奖励函数：有效性回报(R_q ^val， R_lf ^val)和重构回报(R_q ^rec，R_lf ^rec)。但是每种类型的奖励函数在不同的闭环中可能是不同的。

有效性回报用于评估闭环中的中间产出的质量(参见图3)。在闭环从问句开始时，它指示生成的逻辑形式是否在表面和语义级别上形成良好。在闭环中从逻辑形式开始时，它表示中间问句的自然和流畅程度。

闭环从问句开始：在两个级别(即表面和语义)上估计生成的逻辑形式的质量。首先，检查逻辑形式是否是完整的树而没有不匹配。考虑到语义，检查逻辑形式是否可以理解，而不会出现类型不一致等错误。它可以表示为当y在表面和语义级别没有错误时返回1，否则返回0。

如果存在用于逻辑形式y的执行程序或搜索引擎(例如数据集 OVERNIGHT)，则包含语法错误指标。

否则，应该根据相应数据集的本体构建一个语法错误指标。首先，提取出目标领域的语义类型规范，包括：所有实体及其对应类型、一元和二元谓词的参数限制条件(参见表1)。然后，算法1概括了基于语义类型规范检查逻辑形式候选y的表面和语义的过程。

表1：ATIS的抽象规范

闭环从逻辑形式开始：利用语言模型(LM)来评估中间问句的质量。我们应用长度规范化来在长短问句之间进行公平竞争。

其中，LM_q(·)是在Q∪T的所有问句上预训练的语言模型。

重构回报用于估计一个闭环的输出与输入的相似程度。我们采用对数似然函数，因为重构回报包括从问句开始和从逻辑形式开始的两种闭环。

从而，

其中，y_i和x_i是中间输出。

以下内容为发明人为验证本发明的方法及系统所进行的一系列实验，具体地，将ATIS和OVERNIGHT数据集上评估本发明的方法及系统框架。

ATIS，我们使用Dong和Lapata(2018)提供的预处理版本，其中自然语言问句是字母小写化的，并且使用NLTK(Loper和Bird，2002)进行词干化，识别出的命名体由编号标记替换。我们还利用外部词典将单词短语(例如，第一等)映射到实体(例如，第一等：cl)，就像Jia and Liang (2016)所做的那样。

OVERNIGHT，它包含八个领域的自然语言问句及其对应的逻辑形式。我们遵循传统的80％/20％训练集/验证集划分(如Wang等人，2015)在训练期间选择最佳模型。

ATIS和OVERNIGHT没有提供未标记的问句。为了在半监督学习中测试我们的方法，我们将训练集的一部分保留为完全标记的数据，并将其余部分保留为无标注的问句和逻辑形式。

逻辑形式的合成

虽然在大多数语义解析基准测试中没有提供未标记的问句，但是合成逻辑表单应该很容易。由于逻辑形式是严格的结构，可以从现有的形式修改或从简单的语法创建，它比问句采集便宜得多。

基于本体的修改

在ATIS上，我们从训练集中随机抽取一个逻辑形式，并根据表1中的规范选择一个实体或谓词进行替换。如果替换后的新逻辑形式有效且从未见过，则将其添加到无监督数据集。为ATIS创建了4592个新的逻辑形式。

现有技术中提出了一个基础语法来生成逻辑形式以及它们在 OVERNIGHT数据集上的相应规范语句。我们重新排序一种类型的实体实例(例如，ENTITYNP和TYPENP)在语法文件中生成新的逻辑形式。如果我们想要生成更多的逻辑形式，我们可以引入新的实体实例，但我们实际上并没有这样做。最后，我们在平均每个域上获得大约500个新的逻辑形式。

实验设置

基础模型：本发明为Q2LF和LF2Q型号的所有编码器和解码器使用 200个隐藏单元和100维词向量。使用的LSTM是单层的。问句方面的词向量由Glove6B初始化。词汇表外单词用特殊标记unk替换。通过在区间 [-0.2,0.2]内均匀采样来初始化其他参数。我们使用的语言模型也是单层 LSTM，具有200个隐藏单元和100个维度的词向量层。

训练和解码：本发明使用标记数据预训练Q2LF/LF2Q模型，使用标记和未标记问句预训练语言模型LM_q。语言模型用于计算奖励。根据验证集选择超参数α和β(使用0.5)，并且从{3,5}中选择光束尺寸k。批尺寸选自{10,20}。我们使用优化器Adam，所有实验的学习率为0.001。最后，我们评估主模型(Q2LF，语义解析)并报告每个数据集的测试精度。

结果与分析

我们基于现有技术中的设置执行PSEUDO基线。预训练的LF2Q或 Q2LF模型分别利用未标记的逻辑形式和未标记的问句生成伪<问句，逻辑形式>对，这扩展了训练集。当我们通过监督学习训练Q2LF时，伪训练样本在损失函数中需要考虑置信因子(0.5)。

主要结果

表2：在OVERNIGHT数据集上的测试精度与现有技术的对比

表3：在ATIS数据集上的测试精度与现有技术的对比

结果如上表2和3所示，ATT和ATTPTR表示主/对偶模型分别是基于注意力的Seq2seq和基于注意力的Seq2seq+指针网络。当包含DUAL时，我们使用对偶学习算法训练模型，否则我们仅通过监督训练训练主模型。 LF指合成的逻辑形式。PSEUDO使用LF2Q模型并生成伪标记数据。从整体结果来看，我们可以看到：

1)即使没有合成的附加逻辑形式，基于对偶学习的语义解析器也可以通过三步的训练框架超越我们的基线，例如，“ATT+DUAL”比表中的 “ATT+PSEUDO”获得更好的性能，我们认为Q2LF和LF2Q模型可以在对偶学习中互相学习：一个模型发送反馈信号以帮助正则化其他模型。实际上，它也可以解释为数据增强过程，例如，Q2LF可以生成LF2Q使用的样本，反之亦然。而PSEUDO很大程度上取决于预训练模型的好坏和伪样本的质量，即使考虑折扣因素。

2)通过在每个领域的对偶学习中利用合成的逻辑形式，性能得到进一步提高。我们在ATIS上达到了最先进的性能(89.1％)，如表3所示。在OVERNIGHT数据集中，我们平均获得了具有竞争力的性能(80.2％)。我们相信对偶学习的方法可以通过引入更强大的主模型(例如，领域自适应)获得更多改进。我们的方法与各种模型兼容。

3)复制机制可以显著提高ATIS的准确性。但使用复制机制时， OVERNIGHT数据集平均准确度却从80.2％降至79.9％。我们认为 OVERNIGHT数据集的问句中包含非常少量的实体，这些实体复制不是必需的，并且它包含的训练样本少于ATIS。

消融研究

半监督学习我们将训练集的一部分随机保留为标记数据，并将其余部分保留为非配对问句(Q)和逻辑形式(LF)，以在半监督设置中验证我们的方法。标记数据的比例为50％。PSEUDO在这里使用Q2LF模型和Q 来生成伪标记数据，以及LF2Q模型和LF。从表4中可以看到对偶学习方法在两个数据集中显着优于PSEUDO基线。

表4：半监督学习实验结果对比表

为了研究我们的方法在半监督学习中的效率，将ATIS上保留的标记数据的比例从1％逐步变化为90％。在图5中可以看到对偶学习策略提高了所有不同比例的语义解析实验。当比率在0.2和0.4之间时，提升最明显。通常，我们拥有的标签数据越多，提升就越显著。但是，如果标记数据确实有限，则只能利用较少的监督来保持主模型和对偶模型的合理性。例如，当标记数据的比例仅为1％至10％时，改善并不明显。

有效性回报的选择我们通过改变公式10中的有效性回报来进行另一个实验，其中长度标准化的LM得分(即逻辑形式的语言模型)如公式11。结果(表5)表明“硬”表面/语义检查比逻辑形式LM的“软”概率更合适。我们认为简单的语言模型可能会受到长期依赖性问题的困扰，并且很难从顺序模型中捕获逻辑形式的内部结构。

表5：半监督学习在ATIS和OVERNIGHT数据集上的测试精度对比，其中，在OVERNIGHT数据集上直接取了Bas.、Blo.、Cal.、Hou.、Pub.、 Rec.、Res.、Soc.八个领域平均值。

本发明开发了一个基于对偶学习算法的语义解析框架，它使语义解析器能够通过主模型和对偶模型之间的对偶学习游戏充分利用标记甚至未标记的数据。还通过利用逻辑形式结构的先验知识，在表面和语义层面提出了一种新颖的奖励函数。因此，主模型倾向于生成完整且合理的语义表示。实验结果表明，基于对偶学习的语义解析提高了多个数据集的性能。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作合并，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在一些实施例中，本发明实施例提供一种非易失性计算机可读存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项端到端语义解析系统训练方法。

在一些实施例中，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项端到端语义解析系统训练方法。

在一些实施例中，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行端到端语义解析系统训练方法。

在一些实施例中，本发明实施例还提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时端到端语义解析系统训练方法。

上述本发明实施例的端到端语义解析系统可用于执行本发明实施例的端到端语义解析系统训练方法，并相应的达到上述本发明实施例的实现端到端语义解析系统训练方法所达到的技术效果，这里不再赘述。本发明实施例中可以通过硬件处理器(hardwareprocessor)来实现相关功能模块。

图6是本申请另一实施例提供的执行端到端语义解析系统训练方法的电子设备的硬件结构示意图，如图6所示，该设备包括：

一个或多个处理器610以及存储器620，图6中以一个处理器610为例。

执行端到端语义解析系统训练方法的设备还可以包括：输入装置630 和输出装置640。

处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接，图6中以通过总线连接为例。

存储器620作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的端到端语义解析系统训练方法对应的程序指令/模块。处理器610通过运行存储在存储器620中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例端到端语义解析系统训练方法。

存储器620可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据端到端语义解析装置的使用所创建的数据等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器620可选包括相对于处理器610远程设置的存储器，这些远程存储器可以通过网络连接至端到端语义解析装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置630可接收输入的数字或字符信息，以及产生与端到端语义解析装置的用户设置以及功能控制有关的信号。输出装置640可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器620中，当被所述一个或者多个处理器610执行时，执行上述任意方法实施例中的端到端语义解析系统训练方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC 设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

本发明中所出现的英文缩写的英文全称及中文定义。

LSTM：Long Short-term Memory Network，中文名为长短时记忆网络。是一种特殊的循环神经网络，能够有效地缓解循环神经网络遇到的梯度爆炸与梯度消失的问题，适合于处理和预测时间序列中间隔和延迟相对较长的事件。

Agent:强化学习中的代理人，当环境的变化，根据策略函数采取对应的行为，并从环境中得到奖励的信号，调整自身的行为或策略函数，目标是最大化长远期望目标回报。

Sigmoid：神经网络中一种非线性激活函数。给定输入标量x，输出标量1/1+e^(-x)

Seq2Seq:端到端神经网络的框架，又称之为Encoder-Decoder框架。给定输入序列，将其编码为一系列的隐状态，解码网络根据这些隐状态逐步生成目标的序列。

Attention：端到端神经网络的变体，引入不同时刻的语义向量，每一个时间步依赖于不同的上下文语义向量。语义向量是编码状态的加权向量和。

Pointer Network：一种引入复制机制的网络结构，使用注意力机制作为指针来选择输入序列的一个成员来作为输出目标

Seq2Tree：一种网络结构，Seq2Seq变体，用于生成树状的输出而非序列

URI：统一资源标识符(Uniform Resource Identifier)，是一个用于标识某一互联网资源名称的字符串。知识库中常用来标识一个实体。

NMT：Neural Machine Translation,神经网络机器翻译

Lambda表达式：一种常见的逻辑形式，借助于lambda演算的谓词逻辑来表示语义

SCFG：同步上下文无关文法(synchronous context-free grammar)，语法中的规则同时应用于两种语言，挖掘两种语言之间语法结构上的映射关系

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种端到端语义解析系统训练方法，所述语义解析系统包括第一解析模型和第二解析模型，所述方法包括：

向所述第一解析模型输入第一形式待解析内容；

计算对应于所述多个第二形式待解析内容多个有效性回报；

根据所述多个有效性回报和所述多个重构回报确定总回报；

2.根据权利要求1所述的方法，其中，

当所述第一解析模型为语义解析模型，所述第二解析模型为问句生成模型时，所述第一形式待解析内容为自然语言问句，所述第二形式待解析内容为对应于自然语言问句的逻辑形式内容。

3.根据权利要求1所述的方法，其中，

4.根据权利要求2所述的方法，其中，所述有效性回报为：

其中，y表示逻辑形式内容，当y在表面和语义级别没有错误时返回1，否则返回0。

5.根据权利要求3所述的方法，其中，所述有效性回报为：

其中，x表示问句，LM_q(x)是在预定数据集的所有问句上预训练的语言模型。

6.根据权利要求1所述的方法，其中，还包括：

采用有标记的训练样本对对所述第一解析模型和/或第二解析模型进行参数更新。

7.根据权利要求1所述的方法，其中，所述第一解析模型和/或所述第二模型采用Attention机制的Seq2Seq模型，并引入pointer network的复制机制，以将原输入中的句子直接复制到目标输出之中。

8.一种端到端语义解析系统，包括：

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任意一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任意一项所述方法的步骤。