CN111651998A

CN111651998A - 虚拟现实与增强现实场景下弱监督深度学习语义解析方法

Info

Publication number: CN111651998A
Application number: CN202010375881.0A
Authority: CN
Inventors: 谢德峰; 吉建民
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-05-07
Filing date: 2020-05-07
Publication date: 2020-09-11
Anticipated expiration: 2040-05-07
Also published as: CN111651998B

Abstract

一种虚拟现实与增强现实场景下弱监督深度学习语义解析方法，包括如下步骤：步骤1：在已有训练数据集合中产生一个一部分数据具备强监督标注信息，另一部分数据只具备弱监督标注信息的数据集，用于接下来的训练；步骤2：采用“结合探索”策略方法，结合该预训练语言模型和人工写的语法规则约束指导神经网络的语义探索，让生成器能够探索生成可能命中目标逻辑语义表示语句；步骤3：用所述解释器解释并执行生成的逻辑语义表示语句，得到执行结果；再根据已有执行结果得到的弱标签，通过对比弱标签和执行结果，得到得分反馈；步骤4：将得分高于阈值的原语句‑生成语句的语句对存储在记忆缓存里，用强化学习方法对模型进行学习，提升模型策略的有效性。

Description

虚拟现实与增强现实场景下弱监督深度学习语义解析方法

技术领域

本发明属于自然语言处理技术领域，尤其是一种虚拟现实与增强现实场景下的用于自然语言语义解析的弱监督深度学习方法。

背景技术

已有谷歌于2018年发表的《Memory Augmented Policy Optimization forProgram Synthesis and Semantic Parsing》论文中发表了对SQL语句进行语义解析技术MAPO，该技术不适用于λ演算(Lambda Calculus)等逻辑语句的语义解析，而本发明则是为了解决在λ演算逻辑语义解析这个更大的搜索空间下的自然语言语义解析问题。

发明内容

本发明为了解决在自然语言转化为λ演算逻辑语句的问题，是用于解决自然语言处理中的语义解析问题的一种技术，适用于再标记样本较少的情况下利用off-pol icy探索来构建语义解析网络。本发明提出一种虚拟现实与增强现实场景下弱监督深度学习语义解析方法，包括如下步骤：

步骤1：在已有训练数据集合中抽出1/5的数据作为具备有强监督标注信息的数据；然后，用适用于该环境下的解释器解释，该解释器将逻辑序列解释并评价逻辑序列的执行结果解释，将训练数据集合中的另外4/5数据执行强监督标注序列，将执行结果作为弱标签，得到另一部分的具备弱监督标注信息的数据，产生一个一部分数据具备强监督标注信息，另一部分数据只具备弱监督标注信息的数据集，用于接下来的训练；

步骤2：将步骤1得到的那部分具备强监督标注信息的数据作为先验知识，用该先验知识构建预训练语言模型，采用“结合探索”策略方法，结合该预训练语言模型和人工写的语法规则约束指导神经网络的语义探索，让生成器能够探索生成可能命中目标逻辑语义表示语句；

步骤3：用所述解释器解释并执行步骤2生成的逻辑语义表示语句，得到执行结果；再根据步骤1中已有执行结果得到的弱标签，通过对比弱标签和执行结果，得到一个正向或者负向的结果得分反馈；

步骤4：根据步骤3得到的反馈得分，将得分高于阈值的原语句-生成语句的语句对存储在记忆缓存里，然后分别从该记忆缓存和步骤1的具备强监督标注信息的数据中采样，然后用采样到的数据用强化学习方法对模型进行学习，提升模型策略的有效性。

进一步的，所述步骤2中，通过“结合探索”使得生成器探索生成符合目标逻辑语句形式的表达语句，为生成语句打分的方法。打分过程为：用解释器对生成的语句进行解析，并执行，得到一个执行结果，然后再通过对比该执行结果与步骤一得到的弱标签，若二者相似度大于阈值，就给语句打一个正向的得分，否则，则打一个负向的得分。

进一步的，所述步骤4进行强化学习过程如下，其中强化学习方法的优化目标表示为：

其中，θ为生成器模型中的参数，a_t表示探索过程中每轮生成语句的过程中第t步选择的单词token，d(a_0…t-1)表示a_0…t-1出现的概率，

表示步骤三中该生成的语句的得分，若是一个生成语句的得分为正，，则

且对于k<t都有

强化学习过程采用梯度上升，Adam作为优化器来进行训练，π_θ表示在a_0…t-1已出现的情况下，下一个行动a_t的出现概率。

有益效果

与背景技术中存在的问题相比较，本发明可以在λ演算(Lambda Calculus)解析这种具有更大搜索空间的问题运行。且本发明可以在训练数据不都具备有强监督标注信息但有一部训练数据具备强监督标注信息和另一部分数据具备弱监督标注信息的样本数据集上训练。本发明的方法的特殊之处在于得到的语义解析器是通过部分带有强监督标注信息的数据和部分带有弱监督标注信息的数据所组成的数据集合训练得来，而不是全部通过带前监督标注信息的数据训练而来。在实际应用，相对于强监督标注信息，弱监督标注信息的获取更为容易。

附图说明

图1:本发明总体流程图；

图2:生成器模型示意图；

图3:“结合探索”方法生成下一单词的过程示意图；

图4:为生成语句打分的过程示意图；

图5:带记忆缓存的分布采样下的强化学习过程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅为本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

语义解析(semantic parsing)是将自然语言转化为逻辑语言的自然语言处理任务。本发明解决在比较少的标注数据下，将自然语言转化为λ演算逻辑语句，该λ演算逻辑语句可被机器理解，然后做出相应反应。要实现较少标记数据下使自然语言转化为λ演算逻辑语句，首先需要有一个解释器作为解析环境，该解释器的作用是在逻辑语义若是转化正确(可执行且执行结果正确)的情况下给模型一个正向反馈，在逻辑语义若是转化错误(不可执行或是执行结果正确)的情况下给模型一个负向反馈。在已有解释器的情况下，采用off-policy搜索方法，搜索过程在有手写的语义规则约束下进行，为了使模型避免强化学习的冷开始问题，可以先用少量的已标注数据来构建预训练语言模型，在该预训练语言模型的基础上，再进行搜索。采用带有attention机制的encoder-decoder神经网络模型对搜索出的正确的自然语句-逻辑语句进行学习，最后得到解析力更强的自然语言-逻辑语言解析模型。

本发明的虚拟现实与增强现实场景下弱监督深度学习语义解析方法总体流程图如图1所示。对于本方法实验，前提条件是有一个具备所有强监督标注信息的数据集合，但本发明的方法是要解决如果训练数据只有一部分有强监督标注信息，而另一部分只具备有弱监督标注信息，模型该如何训练的问题。

步骤一，如图1的上半部分所示，本发明保留原有数据的1/5的数据，作为具备强监督标签的那一部分训练数据，而对于另外4/5的数据，则是通过一个由人工手写规则组成的解释器，执行这部分数据的强监督标注序列，得到执行结果，将该执行结果作为弱监督标注信息来适用。这是第一步，得到了一个具有一部分数据具备强监督标注信息，而另一部分数据只具备弱监督标注信息的一个用于实验的数据集。这是本发明用于得到实验数据采用的一种方法。部分数据集的语句，强标签，弱标签的样例如表1所示。

表1自然语言语句，强标签和弱标签样例

步骤二，在自然语言生成任务里，一般采用一个带有注意力机制的编码器-解释器模型(encoder-decoder with attention)来作为目标语句的生成器，本发明也采用了相似结果的生成器，如图2所示，该生成器的编码器解码器都有长短期记忆单元(LSTM)构成，采用了注意力机制来分析输入序列各个词汇的重要性。而后，本发明采用的生成器，由于不具备大量的强监督信息来训练，所以该生成器需要探索出合适的可能命中目标逻辑形式的语句。于是，如图1的中间部分所示，本发明使用了步骤一产生的那一部分(少量)的带有强监督标注信息的数据，用这些数据训练出一个预训练语言模型(训练过程类似于一般的有监督学习过程)。然后，参考目标逻辑语句的形式，本发明手写了关于目标逻辑语句的语法规则。接下来，本发明采用了一种本发明称为“结合探索”的方法来让生成器能探索生成符合目标逻辑语句形式的句子。

“结合探索”的执行过程如图3所示，生成器每次根据上一个生成的单词来生成下一个单词时，预训练模型和语法规则约束会相应的各自给出一个下一生成单词的候选表，然后，以各自50％的概率选择其中一个候选表，然后生成器再在选中的候选表中随机选择一个单词，作为下一个生成的单词。该探索方法在强化学习方法中可类似于off-policy方法。

步骤三，在步骤二中本发明通过“结合探索”来让生成器尽量探索生成符合目标逻辑语句形式的表达语句，但即使探索生成的语句符合了逻辑形式的要求，但不一定是符合语义要求低的语句。所以这里需要一个为生成语句打分(识别好坏)的方法。正如图4所示打分过程，本发明采用了步骤一用到的那个特殊解释器，在结合了外部通用知识后，用该解释器对生成的语句进行解析，并执行，得到一个执行结果，然后再通过对比该执行结果与步骤一所提到的弱标签，若二者相近，就给语句打一个正向的得分，若二者不相似，则打一个负向的得分。

步骤四，根据步骤三得到的反馈(得分)，可以先将得分高的原语句-生成语句对存储在记忆缓存里，丢弃掉得分较低的语句对。然后分别从该记忆缓存和步骤一的那1/5的具备强监督标注信息的数据进行分布式采样，然后以采样到的数据为输入数据，进行强化学习方法，提升生成器模型的策略，该过程如图5所示。

其中强化学习方法的优化目标可以表示为：

表示步骤三中该生成的语句的得分，若是一个生成语句的得分为正，如1，则

且对于k<t都有

强化学习过程采用梯度上升，Adam作为优化器来进行训练，k为整数。其中π_θ表示在a_0…t-1已出现的情况下，下一个行动a_t出现的概率。

经过前面四个步骤，本发明就训练得到了一个有一点效果的语义解析器。本发明的方法的特殊之处在于得到的语义解析器是通过部分带有强监督标注信息的数据和部分带有弱监督标注信息的数据所组成的数据集合训练得来，而不是全部通过带前监督标注信息的数据训练而来。相对于强监督标注信息，弱监督标注信息的获取更为容易。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，且应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种虚拟现实与增强现实场景下弱监督深度学习语义解析方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种虚拟现实与增强现实场景下弱监督深度学习语义解析方法，其特征在于：

所述步骤2中，通过“结合探索”使得生成器探索生成符合目标逻辑语句形式的表达语句，为生成语句打分的方法，打分过程为：用解释器对生成的语句进行解析，并执行，得到一个执行结果，然后再通过对比该执行结果与步骤1得到的弱标签，若二者相似度大于阈值，就给语句打一个正向的得分，否则，则打一个负向的得分。

3.根据权利要求1所述的一种虚拟现实与增强现实场景下弱监督深度学习语义解析方法，其特征在于：

所述步骤4进行强化学习过程如下，其中强化学习方法的优化目标表示为：

且对于k<t都有