CN111382574B

CN111382574B - 一种虚拟现实与增强现实场景下结合句法的语义解析系统

Info

Publication number: CN111382574B
Application number: CN202010164700.XA
Authority: CN
Inventors: 廖胜兰; 吉建民
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2023-04-07
Anticipated expiration: 2040-03-11
Also published as: CN111382574A

Abstract

本发明提出一种虚拟现实与增强现实场景下结合句法的语义解析系统，包括：数据处理模块，用于将数据集进行预处理，划分为训练集和测试集，且每条数据由自然语言语句及其目标逻辑形式组成对；句法分析模块，利用句法分析工具，将所有数据的自然语言语句进行句法分析，得到其句法树；神经网络模块，为Tree2Tree模型，包括编码器端和解码器端，采用注意力机制，在解码时更有效的聚焦于源语句中的有效部分；训练及测试模块，用上述模块得到的数据对神经网络进行训练；用测试集数据对熟练后的模型进行测试；预测模块，将训练好的神经网络模块与句法分析工具进行组合，封装成一个系统，输入一条自然语言语句后，输出其逻辑形式。

Description

一种虚拟现实与增强现实场景下结合句法的语义解析系统

技术领域

本发明涉及机器人技术、自然语言理解技术、深度学习技术领域，尤其是一种虚拟现实与增强现实场景下句法分析与深度学习结合的自然语言人机交互系统。

背景技术

语义解析(Semantic Parsing)是指直接将自然语言语句转换成计算机可以理解或执行的逻辑形式。由于语义解析是一个序列到序列的问题，现有技术提出了将机器翻译领域的Seq2Seq模型应用到semantic parsing领域中，并且将注意力机制也运用到semantic parsing上。之后，许多研究团队基于这样的模型做出了许多改进。提出了加入用户反馈机制，利用用户的反馈信号来改善模型的输出。但是他们这些模型在编码器中都采用的是序列编码器，随着句子长度的增加，信息的遗忘会变得更严重。

发明内容

本技术的目的是将人类的自然语言命令语句直接转换成机器可以理解和执行的逻辑形式语句，从而使人类可以直接用自然语言来操控机器人，提升人机交互体验和准确性。因此，本发明提出一种虚拟现实与增强现实场景下结合句法的语义解析系统，包括：

数据处理模块，用于将数据集进行预处理，划分为训练集和测试集，且每条数据由自然语言语句及其目标逻辑形式组成对；

句法分析模块，利用句法分析工具，将所有数据的自然语言语句进行句法分析，得到其句法树；

神经网络模块，采用Tree2Tree模型，包括编码器端和解码器端，编码器端包括序列编码器和结合句法的树编码器，解码器端是一个树形的层次解码器，采用注意力机制，在解码时聚焦于源语句中的有效部分；

训练及测试模块，用上述的数据处理模块和句法分析模块得到的数据对神经网络进行训练，数据包括自然语言语句及逻辑形式，以及句法树，通过批处理的梯度下降法以及反向传播方法使模型收敛；用测试集数据对熟练后的模型进行测试，得到测试准确率；

预测模块，将训练好的神经网络模块与句法分析工具进行组合，封装成一个系统，输入一条自然语言语句后，输出其逻辑形式，该逻辑形式用于机器人的交互控制、智能问答。

进一步的，所述句法分析模块，对于预处理并划分过后的数据集，首先对其进行句法分析处理，得到每一个句子的句法分析树，并且将句法分析树按照乔姆斯基原理(Chomsky Theory)进行二叉化处理，得到二叉句法树(binary parsing tree)。

进一步的，所述所述神经网络模块采用Tree2Tree模型，分为序列编码器(Seq-Encoder)、树编码器(Tree-Encoder)、树解码器(Tree-Decoder)和注意力机制(AttentionMechanism)四个子结构。

进一步的，所述所述序列编码器是一个两层的双向LSTM模型，每个时间步都从LSTM单元保存h和c向量；h向量用于解码器中上下文全局注意力机制的计算，并且最后一层的所有h和c向量也用作树编码器的输入。

进一步的，所述所述树编码器中采用的是Tree-LSTM单元，根据句法分析树的结构自底向上的进行编码；句法分析树被二值化，将其视为N＝2时N-ary Tree-LSTM的特例，在叶子节点处输入向量，根据解析树的结构，树编码器通过Tree-LSTM单元自底向上对其进行编码；将序列编码器部分输出的每个单词相对应的隐向量用作叶节点的输入。

进一步的，所述在树编码器和序列编码器对输入语句进行编码后，两个编码器分别获得了h和c向量；将两个编码器的h和c向量连接在一起，然后将新的h和新的c项链作为编码器端的输出，也作为解码器端的输入；将两个编码器的h和c向量拼接在一起，两个h向量为h_tree和h_seq，c向量也由树编码器和序列编码器分别计算得到；拼接后得到新的h向量h_concat和新的c向量作为编码器端的输出，也作为解码器端的输入。

进一步的，所述所述的树解码器，根据编码器侧获得的连接向量执行分层解码；将逻辑形式视为树结构，其中树的每一层都被视为解码序列，自顶向下的递归解码，从而得到整个逻辑形式，所述的树解码器使用了三层LSTM单元；所述三层LSTM单元指的是，每次解码时，都对上一次解码得到的h向量进行三次的LSTM单元计算，经过三层的计算后，解码得到当前的元素。

进一步的，所述所述的注意力机制是一种有针对性的关注机制，当解码器解码每个符号时，都从编码器部分获得的隐向量中有选择地从中选择一个子集，即对当前任务目标更关键的信息。

有益效果：

本发明技术结合了自然语言处理领域中传统的句法分析技术，在神经网络模型中加入了树编码器。通过对语句进行句法成分分析，在编码器端引入了句法信息，即结合了每一条语句的句法成分分析结果，再与深度学习LSTM模型结合，从而可以实现更高准确率的语义解析技术。引入句法的信息，可以从一定程度上缓和线性编码器对长语句的信息遗忘问题，从而得到包含更准确语义信息的编码向量。采用深度学习模型的方法，可以端到端的对数据进行训练，免去许多传统的特征提取、手写规则等工作。

附图说明

图1:本发明语义解析流程图；

图2:本发明句法分析树示意图；

图3:本发明Tree2Tree模型中的编码器；

图4:本发明Tree2Tree模型中的解码器；

图5:本发明Tree2Tree模型中的注意力机制。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅为本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

语义解析任务是实现人机交互的一种高效方法，其目的是将自然语言句子转换为相应的逻辑语义形式。而这些自然语言句子的句法信息可以帮助预测其语义结构。现有的句法解析器，例如Stanford Parser和Berkeley Parser，能够高效，准确地生成自然语言句子的句法分析树。因此，本技术提出一种结合句法信息的语义解析器，其主要神经网络模块是Tree2Tree模型。Tree2Tree是一种编码器-解码器模型。编码器端包含一个序列编码器模型和一个利用句法信息的树形编码器。然后，分层的树解码器会递归地生成逻辑形式树，以获得输入语句的逻辑形式。在多个数据集上的实验表明，结合输入语句的句法信息可以提高语义解析的效率和准确性。

参见图1，本发明的整个语义解析交互系统包括数据处理模块、句法分析模块、神经网络模型模块、训练及测试模块、预测模块。

系统处理流程如图1所示，本发明的方案是基于深度学习的方法，因此需要数据集(Dataset)来对模型进行训练(Train)。实验所需数据是自然语言语句与其对应的逻辑形式对。本发明需要将数据集进行处理，分成训练集和测试集两个部分(Trainset/Test set)。训练集和测试集中的数据，本发明都需要对自然语言语句进行句法分析(SyntacticParsing)，得到每条语句的句法成分树结构(Syntax Trees)。接下来，用自然语言语句及其句法成分树，以及对应的目标逻辑形式输入到Tree2Tree网络中进行训练。通过神经网络模块的训练，本发明可以得到一个准确率高的语义解析模型。预测阶段则是将模型封装为一个系统，在系统中输入自然语言语句(Natural Language Sentence)，则可以得到其逻辑形式(Logical Form)。

1、数据处理模块(Data Processing)

对于训练阶段，本发明需要将数据集中的数据进行简单的预处理，并随机划分成训练集和测试集。在划分过程中，要保证训练集和测试集的数据不相交，即测试集中数据在训练集中不出现，以此来保证模型的泛化性能。

2、句法分析模块(Syntactic Parsing)

成分句法分析(constituent parsing)是自然语言处理中的一个基础任务，它的任务是给定一个句子，分析出句子的短语结构句法树，来帮助理解句子的语法结构和层次。

采用Stanford的CoreNLP包和Berkeley Parser这两个工具来进行句法分析。本发明在实验中发现，在解析速度上，Berkeley parser的解析速度远远高于Stanford parser。并且在准确率上，Berkeley parser对于长句子也能解析的更准确。因此本发明在最后的实验中，决定采用Berkeley parser的结果。

对于预处理并划分过后的数据集，本发明首先对其进行句法分析处理，得到每一个句子的句法分析树。并且本发明将句法分析树按照乔姆斯基原理(Chomsky Theory)进行二叉化处理，得到二叉句法树(binary parsing tree)。使得后面利用Tree-LSTM单元时更加方便，也利于训练。

图2是一个句法分析树的例子，自然语言语句“which state has the largestcapital”是数据集中的一个例子。用句法分析工具进行解析后，可以得到如图2所示的句法分析树。图2中可以看到，经过句法分析后，得到的句法树显示了句子的句法成分。例如，“WDT”表示“which”是一个疑问代词，“NN”表示“state”是一个名词，疑问代词和名词组成了疑问短语“WHNP”。“VBZ”表示“has”是一个动词，且是第三人称单数形式。“DT”表示“the”是定冠词，“JJS”表示“largest”的属性是形容词的最高级，“the largest capital”合在一起组成了名词短语“NP”。结合前面的动词“has”，动词与名词短语组成动词短语“VP”，同时也看作一个从句“S”。最终，疑问短语与动词短语构成了完整的句子“SBAR”。

3、神经网络模型模块

本发明中的模型称为Tree2Tree，是一个Encoder-Decoder模型。根据模型的总体结构，本发明可以将模型分为序列编码器(Seq-Encoder)、树编码器(Tree-Encoder)、树解码器(Tree-Decoder)和注意力机制(Attention Mechanism)四个子结构。

3.1、Seq-Encoder序列编码器

序列编码器是一个两层的双向LSTM模型，本发明每个时间步都从LSTM单元保存h和c向量。h向量用于解码器中上下文全局注意力机制的计算，并且最后一层的所有h和c向量也用作树编码器的输入。

3.2、Tree-Encoder树编码器

树编码器中采用的是Tree-LSTM单元，根据句法分析树的结构自底向上的进行编码。本发明的句法分析树已被二值化，因此可以将其视为N＝2时N-ary Tree-LSTM的特例。因此，本发明可以在叶子节点处输入向量。根据解析树的结构，树编码器通过Tree-LSTM单元自底向上对其进行编码。在本发明的实验中，本发明将序列编码器部分输出的每个单词相对应的隐向量用作叶节点的输入。

在树编码器和序列编码器对输入语句进行编码后，两个编码器分别获得了h和c向量。本发明将两个编码器的h和c向量连接在一起，然后将新的h和新的c项链作为编码器端的输出，也作为解码器端的输入。本发明将两个编码器的h和c向量拼接在一起。两个h向量就是图3中的h_tree和h_seq，c向量也同样是树编码器和序列编码器分别计算得到(在图中未注明)。拼接后得到新的h向量(图中h_concat)和新的c向量作为编码器端的输出，也作为解码器端的输入。

3.3、Tree-Decoder树解码器

在解码器方面，本发明采用现有技术中Seq2Tree模型中的树解码器。根据编码器侧获得的连接向量执行分层解码。本发明将逻辑形式视为树结构，其中树的每一层都被视为解码序列。自顶向下的递归解码，从而得到整个逻辑形式。本发明对现有技术中Seq2Tree模型改进，本发明的解码器使用了三层LSTM单元。三层LSTM单元指的是，每次解码时，都对上一次解码得到的h向量进行三次的LSTM单元计算(相当于三层网络)。经过三层的计算后，解码得到当前的元素(token)。实验发现，三层的LSTM单元计算能够有效提升准确率。

本发明第二部分句法分析模块中所用到的示例语句“which state has thelargest capital”对应的逻辑形式为“(lambda$0e(and(state:t$0)(loc:t(argmax$1(capital:t$1)(size:i$1))$0)))”。该逻辑形式的树结构如图4所示。其中h_concat表示编码器端最后得到的编码向量。图4中的深色节点“<N>”代表非终结符，即逻辑形式中的“(”，表示一个新的子树结构。“</s>”表示当前子树的结束，也对应着逻辑形式中的“)”。图4中每一个圆形节点则是一个三层的LSTM解码单元，对上一次编码得到的向量进行三层网络的计算，从而预测出当前解码得到的字符。

3.4注意力机制

上下文注意力机制是一种有针对性的关注机制，其借鉴了人类的注意力机制。意思是当解码器解码每个符号时，都从编码器部分获得的隐向量中有选择地从中选择一个子集，即对当前任务目标更关键的信息。例如在翻译模型中，假设本发明将中文翻译成英文，每解码出一个英文单词时，都应该在编码器生成的所有隐向量中聚焦一个部分，类似于对齐机制。

本发明模型中的注意力机制，不仅考虑了序列编码器中生成的隐向量，还考虑了在对树结构进行编码时每个节点获得的隐向量。如图5所示，h₁，h₂，…，h₆表示的是序列编码器中得到的所有h向量(与图3一致)，而h₇，h₈，…，h₁₁则表示树编码器中每个节点的h向量。进行注意力机制计算时，这些所有的h向量都参与到公式2的计算中。也就是说，解码器每次解码时，都会聚焦于序列编码器或树编码器中的某一部分。因此，本发明的上下文关注可以在解码时同时关注序列编码器和树编码器。

h_s＝[h₁，h₂，…，h_n；h_n+1，h_n+2，…，h_2n+1] 公式(1)

c_t＝attention(h_s，h_t) 公式(2)

h_s表示编码器端所有的隐向量h集合，其中h₁，h₂，…，h_n表示序列编码器得到的隐向量，h_n+1，h_n+2，…，h_2n+1则是树编码器得到的隐向量，n表示当前输入语句的长度。h_t表示当前解码单元得到的向量，t表示当前是解码的第t步。公式(2)则是h_s与h_t进行注意力的计算，即当前的解码单元h_t对编码器隐向量h_s中的每个向量“关注”程度，得到的c_t就是加权平均后的向量。

则是考虑了注意力机制的经过激活函数tanh后得到的向量，其中W_c是一个权值矩阵。公式(4)则表示，经过注意力机制的计算后，基于输入语句x和之前生成的部分输出字符y_＜t得到的当前输出字符y_t的概率。其中W_s是一个权值矩阵，softmax表示激活函数。

4、训练及测试模块

模型设计完毕后，本发明就可以根据处理过后得到的数据进行模型的训练。模型采用mini batch的方法将数据按批进行训练，优化方法选用Rmsprop。将一批数据输入到网络中，经过编码器编码和解码器解码之后，得到了一个解析后的逻辑形式，但是这个逻辑形式不一定是正确的，甚至与标注的逻辑形式相差很大。因此，本发明通过定义损失函数后，将loss进行反向传播来更新模型中的参数。经过所有训练数据和若干轮的迭代过程，得到一个训练好的，具有较高准确率的语义解析模型。

5、预测模块

本发明将训练好的语义解析模型进行封装，与句法分析工具结合在一起，形成一个结合句法分析的语义解析技术系统。在系统中输入一句自然语言语句后，系统会对其进行句法分析，然后结合语句一起输入到训练好的模型中进行预测。最后得到解析过后的逻辑形式后作为输出。

本发明技术在三个公开数据集上进行实验后，能够得到更准确或是具有竞争力的语义解析准确率。

三个公开数据集分别是GEO，ATIS和GPSR。GEO是一个标准的语义解析数据集，包含880条美国地理知识的询问语句。ATIS全称为航空旅行订票系统数据集，包含5410条航空订票咨询语句。GPSR数据集是由机器人领域竞赛RoboCup@Home中的通用服务机器人任务中生成的命令语句构成的，一共有1211条命令语句及标注的相应逻辑形式。

表1 GEO数据集上的准确率

表1是本技术中的模型以及之前相关工作中的模型在GEO数据集上的准确率。DCSwith L+、ZK07、WKZ14是运用传统方法的模型，虽然准确率很高但是模型复杂。基于神经网络的模型中，本技术中提出的Tree2Tree模型能够达到最高的准确率，超越Seq2Seqwithdata-aug模型1.3％的准确率。

表2 ATIS数据集上的准确率

表2是本技术中的模型以及之前相关工作中的模型在ATIS数据集上的准确率。同样，ZK07、WKZ14与表1中相同，属于传统方法模型。模型较复杂，需要大量的手工规则与特征提取。在基于神经网络的模型中，本技术中提出的Tree2Tree模型能够达到最高的准确率，相比Coarse2Fine模型有0.4％的提升。

表3 GPSR数据集上的准确率

表3是本技术中的模型以及之前相关工作中的模型在GPSR数据集上的准确率。GPSR是一个较新的数据集，因此暂时只有一个相关模型在此数据集上进行了实验。本实验中的GPSR数据集分为两部分，一部分是自然语言语句和逻辑形式中的实体都由其实体类型替代的Gen.部分，另一部分则保持原有实体，且经过专业人员进行多样化改写后的Para.部分。也就是说，Gen.部分的数据中，实体是匿名化的，而Para.中实体不匿名。由于NSPforGPSR2019模型中使用了glove、ELMO、BERT等预训练词向量，因此达到了更高的准确率。但实验结果表明，本技术中Tree2Tree模型达到的准确率比没有用预训练词向量的NSPforGPSR2019模型更高，分别提升了1.9％和6.4％。

测试效果

本技术模型在三个数据集上分别选用的参数表格。

其中优化器optimizer选用RMSprop，编码器维度encoder dimension都是150，解码器维度decoder dimension都是300，词向量维度embedding dimension分别是150，300和150。神经元失活概率drop out是0.5，批处理大小分别是8，32，8。三个数据集上的学习率分别是0005，0.002和0.005。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，且应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种虚拟现实与增强现实场景下结合句法的语义解析系统，其特征在于，包括：

2.根据权利要求1所述的一种虚拟现实与增强现实场景下结合句法的语义解析系统，其特征在于：

句法分析模块，对于预处理并划分过后的数据集，首先对其进行句法分析处理，得到每一个句子的句法分析树，并且将句法分析树按照乔姆斯基原理(Chomsky Theory)进行二叉化处理，得到二叉句法树(binary parsing tree)。

3.根据权利要求1所述的一种虚拟现实与增强现实场景下结合句法的语义解析系统，其特征在于：

所述神经网络模块采用Tree2Tree模型，分为序列编码器(Seq-Encoder)、树编码器(Tree-Encoder)、树解码器(Tree-Decoder)和注意力机制(Attention Mechanism)四个子结构。

4.根据权利要求3所述的一种虚拟现实与增强现实场景下结合句法的语义解析系统，其特征在于：

所述序列编码器是一个两层的双向LSTM模型，每个时间步都从LSTM单元保存h和c向量；h向量用于解码器中上下文全局注意力机制的计算，并且最后一层的所有h和c向量也用作树编码器的输入。

5.根据权利要求3所述的一种虚拟现实与增强现实场景下结合句法的语义解析系统，其特征在于：

所述树编码器中采用的是Tree-LSTM单元，根据句法分析树的结构自底向上的进行编码；句法分析树被二值化，将其视为N＝2时N-ary Tree-LSTM的特例，在叶子节点处输入向量，根据解析树的结构，树编码器通过Tree-LSTM单元自底向上对其进行编码；将序列编码器部分输出的每个单词相对应的隐向量用作叶节点的输入。

6.根据权利要求3所述的一种虚拟现实与增强现实场景下结合句法的语义解析系统，其特征在于：

在树编码器和序列编码器对输入语句进行编码后，两个编码器分别获得了h和c向量；将两个编码器的h和c向量连接在一起，然后将新的h和新的c项链作为编码器端的输出，也作为解码器端的输入；将两个编码器的h和c向量拼接在一起，两个h向量为h_tree和h_seq，c向量也由树编码器和序列编码器分别计算得到；拼接后得到新的h向量h_concat和新的c向量作为编码器端的输出，也作为解码器端的输入。

7.根据权利要求3所述的一种虚拟现实与增强现实场景下结合句法的语义解析系统，其特征在于：

所述的树解码器，根据编码器侧获得的连接向量执行分层解码；将逻辑形式视为树结构，其中树的每一层都被视为解码序列，自顶向下的递归解码，从而得到整个逻辑形式，所述的树解码器使用了三层LSTM单元；所述三层LSTM单元指的是，每次解码时，都对上一次解码得到的h向量进行三次的LSTM单元计算，经过三层的计算后，解码得到当前的元素。

8.根据权利要求1所述的一种虚拟现实与增强现实场景下结合句法的语义解析系统，其特征在于：

所述的注意力机制是一种有针对性的关注机制，当解码器解码每个符号时，都从编码器部分获得的隐向量中有选择地从中选择一个子集，即对当前任务目标更关键的信息。