CN111737974A

CN111737974A - 一种语句的语义抽象化表示方法及装置

Info

Publication number: CN111737974A
Application number: CN202010828329.2A
Authority: CN
Inventors: 徐芳; 郑茂盛; 杜向阳
Original assignee: Beijing Qingdun Information Technology Co ltd
Current assignee: Beijing Qingdun Information Technology Co ltd
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2020-10-02
Anticipated expiration: 2040-08-18
Also published as: CN111737974B

Abstract

本发明公开了一种语句的语义抽象化表示方法及装置，其中，方法包括：获取目标语句，并对目标语句进行预处理操作，得到处理后的语句，其中，所述预处理操作包括分词操作和词性标注操作；从所述处理后的语句中提取多种特征，其中，所述特征包括以下至少一项：词语级别的特征、词性特征、依存特征和Bert获取到的词语的上下文相关特征；对所述多种特征进行联合编码，以获取所述语句的最终向量；对所述最终向量进行解码，以生成所述语句中不同词语之间的依赖关系；根据所述不同词语之间的依赖关系生成所述语句对应的抽象语义图。通过该技术方案，在不损失语义信息的基础上提高抽象语义表示的正确率。

Description

一种语句的语义抽象化表示方法及装置

技术领域

本发明涉及自然语言处理技术领域，更具体地，涉及一种语句的语义抽象化表示方法及装置。

背景技术

在法律领域中，多轮问答重点在于掌握问句的“问意”，如果将“问意”作为一个核心点，则句子中的其他成分都围绕该节点进行展开，和核心节点相近的词是问句中和问意最相关的；对问句的虚词和没有实际意义的词语进行删减，删减后如果将和“问意”意义相近程度进行展开，则该句子的语义就可以构成一个只有一个根节点的有向图，该有向图中节点的子节点表示对当前节点的修饰，在问答中用于填槽。在自然语言处理（NaturalLanguage Processing, NLP）中，这种将句子的语义表达为只有一个根节点的有向图的方法为抽象语义表示（Abstract Meaning Representation, AMR）。

抽象语义表示是一种句子语义表示方法，指的是将一个句子的语义表示为一个图，其中该图只有一个根节点的有向图，且不存在环路。在 AMR 图中，通常，一个节点对应于一个概念（Concept），在特殊情况下，某些专有名词是一个子图，该子图整体对应于一个概念，语义概念之间的语义关系则对应于相应节点之间的有向边。

在自然语言处理中，和AMR比较相似的是句法分析（Syntactic Parsing）和语义分析（Semantic Parsing）任务。句法分析旨在确定句子的句法结构或者句子中词汇之间的句法关系，主要包括成分结构分析（Constituent Structure Parsing）和依存关系分析(Dependency Parsing)等任务。语义分析旨在理解整个文本所要表达的真实语义。针对不同的研究对象，语义分析又可以分为词汇级语义分析、句子级语义分析和篇章级语义分析。语义分析是自然语言处理最重要的基本任务，也是许多自然语言处理上层应用，如问答（Question Answering）、对话（Dialogue）等的重要基础。和句法分析、语义分析不同的是AMR重点在于句子中语义的层次关系。

通常，在实际应用中，一个句子中的若干虚词或者非核心词在句子中并没有起到任何的作用，因此我们试图用核心词或者命名实体等构成词链或者核心词图来表达句子的完整语义，然而，语义分析是自然语言处理领域亟待突破的瓶颈。想要做到更加精准的语义分析，一个功能完善的语义表示方法是不可或缺的。而AMR这一新型的句子语义表示方法，基本具备较完整、较准确地表示一个句子语义的能力，因此在语义研究界备受关注，但是目前AMR是基于通用语料，并制订了相关的标注方法，针对法律领域的句子语义表示还没有被广泛关注，同时AMR结构中还是保留了所有的词，造成了一定的信息冗余。

现有的AMR 解析主要有两类主流方法：基于图（graph-based）的 AMR 解析方法和基于转移(transition-based)的 AMR 解析方法。基于图的方法从左向右解析句子，针对句中的每个词，找该词的head词(head指的是该词的父节点)以及从该词到head词之间的关系类型，即需要解决两个问题：哪两个节点（词语）连依存弧以及弧的标签是什么（此处将弧分为两种，指向和被指向，left为指向，right为被指向）。而转移模型将AMR解析过程建模为预测动作序列，为句子寻找最优的动作转移序列，这两种方法都是基于对句子特征的表示。

现有的表示方法大多采用卷积神经网络（Convolutional Neural Networks,CNN）和循环神经网络（Recurrent Neural Network, RNN）对句子进行表示，但因为RNN中存在梯度消失和梯度爆炸问题，大部分研究者现在采用的是双向长短期记忆网络（Bidirectional Long Short-Term Memory， Bi-LSTM）。Bi-LSTM在每个时间步都根据前面已有的状态更新当前词语的表示，但是句子较长时，由于遗忘门的存在，对远距离的词语通过长时间步的迭代后遗忘了部分依赖信息，包含的信息量较少；例如句子“婚后，一方支付首付，同时该方父母单独还贷的房屋归谁所有”，房屋是婚后的，两者之间有依赖关系，但是由于距离较远，使用传统的BiLSTM在处理房屋时，已经很难捕捉到其和婚后的依赖信息了。同时，在对词语进行表示时，现有的基于词向量的方法中的词向量是上下文无关的，损失了部分语义。

发明内容

鉴于上述问题，本发明提出了一种语句的语义抽象化表示方法和相应的装置，其可以在不损失语义信息的基础上提高抽象语义表示的正确率。

根据本发明实施例的第一方面，提供一种语句的语义抽象化表示方法，所述方法包括：

获取目标语句，并对目标语句进行预处理操作，得到处理后的语句，其中，所述预处理操作包括分词操作和词性标注操作；

从所述处理后的语句中提取多种特征，其中，所述特征包括以下至少一项：词语级别的特征、词性特征、依存特征和Bert获取到的词语的上下文相关特征；

对所述多种特征进行联合编码，以获取所述语句的最终向量；

对所述最终向量进行解码，以生成所述语句中不同词语之间的依赖关系；

根据所述不同词语之间的依赖关系生成所述语句对应的抽象语义图。

在一个实施例中，优选地，对所述多种特征进行联合编码，以获取所述语句的最终向量，包括：

根据所述词语级别的特征、词性特征和Bert获取到的词语的上下文相关特征，确定所述语句中每个词语的密集向量、词性标注的密集向量和Bert向量；

对每个词语的密集向量、词性标注的密集向量和Bert向量进行拼接，得到每个词语对应的联合向量；

采用双向长短期记忆网络来学习每个词语的联合向量对应的上下文表示向量；

采用双向图卷积神经网络对所述每个词语的依存特征进行处理，以生成所述每个词语的依赖特征向量；

将所述每个词语对应的上下文表示向量和依赖特征向量进行拼接，得到每个词语的最终向量；

将每个词语的最终向量进行拼接得到所述语句的最终向量。

在一个实施例中，优选地，对所述最终向量进行解码，以生成所述语句中不同词语之间的依赖关系，包括：

使用双仿射算法对所述每个词语的最终向量进行预测，生成所述每个词语对应的父节点位置标签；

使用多层感知机算法对所述词语的最终向量进行预测，生成所述每个词语对应的弧关系标签和是否保留标签。

在一个实施例中，优选地，根据所述不同词语之间的依赖关系生成所述语句对应的抽象语义图，包括：

根据每个词语的是否保留标签确定是否保留该词语；

对于保留下来的所有词语，根据对应的父节点位置标签和弧关系标签生成所述抽象语义图。

在一个实施例中，优选地，使用双仿射算法对所述每个词语的最终向量进行预测，生成所述每个词语对应的父节点位置标签，包括：

使用以下公式计算每个词语对应的父节点位置标签的值；

其中，

表示父节点位置标签的值，R表示所述语句的最终向量，

表示权重矩阵，

表示偏置值，

表示第i个词语的最终向量。

根据本发明实施例的第二方面，提供一种语句的语义抽象化表示装置，所述装置包括：

预处理模块，用于获取目标语句，并对目标语句进行预处理操作，得到处理后的语句，其中，所述预处理操作包括分词操作和词性标注操作；

特征提取模块，用于从所述处理后的语句中提取多种特征，其中，所述特征包括以下至少一项：词语级别的特征、词性特征、依存特征和Bert获取到的词语的上下文相关特征；

编码模块，用于对所述多种特征进行联合编码，以获取所述语句的最终向量；

解码模块，用于对所述最终向量进行解码，以生成所述语句中不同词语之间的依赖关系；

生成模块，用于根据所述不同词语之间的依赖关系生成所述语句对应的抽象语义图。

在一个实施例中，优选地，所述编码模块包括：

第一确定单元，用于根据所述词语级别的特征、词性特征和Bert获取到的词语的上下文相关特征，确定所述语句中每个词语的密集向量、词性标注的密集向量和Bert向量；

第一拼接单元，用于对每个词语的密集向量、词性标注的密集向量和Bert向量进行拼接，得到每个词语对应的联合向量；

学习单元，用于采用双向长短期记忆网络来学习每个词语的联合向量对应的上下文表示向量；

处理单元，用于采用双向图卷积神经网络对所述每个词语的依存特征进行处理，以生成所述每个词语的依赖特征向量；

第二拼接单元，用于将所述每个词语对应的上下文表示向量和依赖特征向量进行拼接，得到每个词语的最终向量；

第三拼接单元，用于将每个词语的最终向量进行拼接得到所述语句的最终向量。

在一个实施例中，优选地，在一个实施例中，优选地，所述解码模块包括：

第一生成单元，用于使用双仿射算法对所述每个词语的最终向量进行预测，生成所述每个词语对应的父节点位置标签；

第二生成单元，用于使用多层感知机算法对所述词语的最终向量进行预测，生成所述每个词语对应的弧关系标签和是否保留标签。

在一个实施例中，优选地，所述生成模块包括：

第二确定单元，用于根据每个词语的是否保留标签确定是否保留该词语；

第三生成单元，用于对于保留下来的所有词语，根据对应的父节点位置标签和弧关系标签生成所述抽象语义图。

在一个实施例中，优选地，所述第一生成单元用于：

使用以下公式计算每个词语对应的父节点位置标签的值；

其中，

表示父节点位置标签的值，R表示所述语句的最终向量，

表示权重矩阵，

表示偏置值，

表示第i个词语的最终向量。

根据本发明实施例的第三方面，提供一种语句的语义抽象化表示装置，包括：

存储器和处理器；

所述存储器用于保存所述处理器执行计算机程序时所使用的数据；

所述处理器用于执行计算机程序以实现如第一方面中任意一项所述的方法。

根据本发明实施例的第四方面，提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在设备上运行时，所述设备执行如第一方面任一项所述的方法。

本发明实施例中，针对法律领域问句的语义抽象化问题，对句子中的词进行了删减，同时还保留了句子的完整语义，提出了将图神经网络和预训练语言模型Bert相结合的方法进行语义抽象化表示，图神经网络可以捕捉句子中长距离的依赖信息，Bert对词语获得的词向量是上下文相关的，不会损失语义信息；同时，抽象语义表示中的语义关系往往和对应句子中包含的依存句法关系有密切的关联性，因此本发明将图卷积神经网络(GraphConvolutional Network, GCN)建模依存句法中的依赖信息，依存关系特征是拓扑图的结构，而传统的卷积无法处理，GCN可以在拓扑图中提取空间特征，其通过多跳机制，不断更新每个结点的隐藏状态，最终获得每个词语的特征，本发明通过在传统的BiLSTM中加入GCN提取的词语空间特征和Bert提取的词的上下文相关语义等信息，以提高抽象语义表示的正确率。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的一种语句的语义抽象化表示方法的流程图。

图2是本发明一个实施例的一种语句的语义抽象化表示方法中步骤S103的流程图。

图3是本发明一个实施例的一种语句的语义抽象化表示方法中步骤S104的流程图。

图4是本发明一个实施例的一种语句的语义抽象化表示方法中步骤S104的流程图。

图5是本发明一个实施例的一种语句的语义抽象化表示方法中模型的结构示意图。

图6是本发明一个实施例的一种语句的语义抽象化表示的示意图。

图7是本发明一个实施例的一种语句的语义抽象化表示装置的框图。

图8是本发明一个实施例的一种语句的语义抽象化表示装置中编码模块的框图。

图9是本发明一个实施例的一种语句的语义抽象化表示装置中解码模块的框图。

图10是本发明一个实施例的一种语句的语义抽象化表示装置中解码模块的框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明一个实施例的了一种语句的语义抽象化表示方法的流程图，如图1所示，语句的语义抽象化表示方法包括：

步骤S101，获取目标语句，并对目标语句进行预处理操作，得到处理后的语句，其中，预处理操作包括分词操作和词性标注操作。

分词时可以使用用户自定义的字典以防止法律领域专有名词分词错误。

步骤S102，从处理后的语句中提取多种特征，其中，特征包括以下至少一项：词语级别的特征、词性特征、依存特征和Bert获取到的词语的上下文相关特征；

步骤S103，对多种特征进行联合编码，以获取语句的最终向量；

步骤S104，对最终向量进行解码，以生成语句中不同词语之间的依赖关系；

步骤S105，根据不同词语之间的依赖关系生成语句对应的抽象语义图。

在该实施例中，解决了长句中的词与词之间的长距离依赖问题，同时将BiGCN建模依存关系，可以辅助提高句子语义抽象化的性能；加入预训练语言模型获取词语的上下文相关向量，改进了普通词向量中上下文无关向量损失了部分语义的情况；并且设定指定标签表示该词是否保留，可以在生成图时，去掉无用的节点，实现精简句子但不损失句子完整语义的效果。

图2是本发明一个实施例的了一种语句的语义抽象化表示方法中步骤S103的流程图。

如图2所示，在一个实施例中，优选地，上述步骤S103包括：

步骤S201，根据词语级别的特征、词性特征和Bert获取到的词语的上下文相关特征，确定语句中每个词语的密集向量、词性标注的密集向量和Bert向量；

每个词语的密集向量形式

，词性标注的密集向量形式

和Bert向量表示

用如下公式表示：

其中，

表示词向量矩阵，词向量矩阵是百度百科、维基百科、人民日报、搜狗新闻等采用word2vec生成的300维的向量，

表示词性向量矩阵，词性向量矩阵也是300维，采用随机化的方式，

表示Bert向量矩阵，

表示词i在词典中的下标。

步骤S202，对每个词语的密集向量、词性标注的密集向量和Bert向量进行拼接，得到每个词语对应的联合向量；

步骤S203，采用双向长短期记忆网络来学习每个词语的联合向量对应的上下文表示向量；

使用BiLSTM来学习当前词的联合向量的上下文表示，联合向量的上下文表示用如下公式表示：

为Bi-LSTM的前向表示，

为Bi-LSTM的后向表示，将前向表示和后向表示进行拼接得到当前词的上下文表示

。

由于采用BiLSTM对句子中词与词之间的长距离依赖信息捕捉较差，因此在获取词语的上下文表示时，加入图神经网络将句子依存关系建模，辅助进行句子中词语语义的提取。

步骤S204，采用双向图卷积神经网络对每个词语的依存特征进行处理，以生成每个词语的依赖特征向量；

具体地，采用图卷积神经网络（Graph Convolutional Network, GCN），将依存关系树作为GCN的输入节点的邻接矩阵，由于考虑到图网络中边的有向性，在实际应用中，采用双向图卷积神经网络（BiGCN）。（双向图卷积神经网络（Bi-directional：和双向长短期记忆网络机制类似，即在计算当前节点的特征时，不仅计算所有指向该节点路径的特征，即指向特征，而且计算该节点指向的路径特征，即被指向特征）。

图卷积神经网络也是一种卷积神经网络（Convolutional Neural Networks,CNN），和CNN不同的是，CNN无法处理非欧空间（Non Euclidean Structure）的数据，对于拓扑图结构的数据，想要挖掘其中节点和节点间的关系，提取空间特征，则需要使用GCN。

针对出度和入度构造两个邻接矩阵

和

，则词语的出入度特征表示如下：

表示对词语i的出度信息的得到的特征表示，

表示对词语i的出度信息的得到的特征表示，将出度信息和入度信息特征拼接后得到词语i的出入度特征表示

。

步骤S205，将每个词语对应的上下文表示向量和依赖特征向量进行拼接，得到每个词语的最终向量；

步骤S206，将每个词语的最终向量进行拼接得到语句的最终向量。

图3是本发明一个实施例的了一种语句的语义抽象化表示方法中步骤S104的流程图。

如图3所示，在一个实施例中，优选地，步骤S104包括：

步骤S301，使用双仿射算法对每个词语的最终向量进行预测，生成每个词语对应的父节点位置标签；

步骤S302，使用多层感知机算法对词语的最终向量进行预测，生成每个词语对应的弧关系标签和是否保留标签。

在一个实施例中，优选地，使用双仿射算法对每个词语的最终向量进行预测，生成每个词语对应的父节点位置标签，包括：

使用以下公式计算每个词语对应的父节点位置标签的值；

其中，

表示父节点位置标签的值，R表示语句的最终向量，

表示权重矩阵，

表示偏置值，

表示第i个词语的最终向量。

图4是本发明一个实施例的了一种语句的语义抽象化表示方法中步骤S104的流程图。

如图4所示，在一个实施例中，优选地，步骤S105包括：

步骤S401，根据每个词语的是否保留标签确定是否保留该词语；

步骤S402，对于保留下来的所有词语，根据对应的父节点位置标签和弧关系标签生成抽象语义图。

下面以一个具体实施例详细说明本发明的上述技术方案。

假设给定法律问句“婚后，一方支付首付，同时该方父母单独还贷的房屋归谁所有”，则针对该问句，采用如图5所示的模型，模型主要分为两部分，分别是编码和解码。编码即词表示部分，对应于图5中的Embeddding，BiLSTM和GCN；解码即MLP部分，表示采用双仿射对词表示进行解码，生成其对应的父节点标签和弧关系标签，具体处理过程如下：

编码：

词语表示层采用词语的词向量、词性标注的词向量和Bert向量共同拼接而成。

首先，对句子进行分词，分词时使用用户自定义的字典以防止法律领域专有名词分词错误。对于分词后的词语序列“婚后/，/一方/支付/首付/，/同时/该/方/父母/单独/还贷/的/房屋/归谁所有”，得到其中每个词语的密集向量形式

，词性标注的密集向量形式

和Bert向量表示

，用如下公式表示：

		<i></i>
					<i></i>
		<i></i>

其中，

表示Bert向量矩阵，

表示词i在词典中的下标。

以上述例子中的词“归谁所有”为例，假设三种向量的维度均为2，词向量为[0.4142 0.5563]，其词性“v”的向量表示为[0.7361 0.5135]，Bert生成的该词的向量为[0.3413 0.9321]。

对词语、词性和Bert向量进行拼接，得到词语的联合向量表示

用如下公式表示：

表示向量的拼接。

拼接后的联合词向量为[0.4142 0.5563 0.7361 0.5135 0.3413 0.9321]。句子共17个词，则整个句子的维度为17*6。

假设一个batch有8条数据，8条数据最长的长度为20，则该batch中，所有数据的维度为8*20*6；对于句子长度小于最大长度的句子，后面采用<PAD>标签进行填充，对<PAD>部分不预测其标签。

使用 BiLSTM来学习当前词的联合向量的上下文表示，用如下公式表示：

为Bi-LSTM的前向表示，

。

假设BiLSTM隐藏层单元数为2，前向LSTM产生该词的正向的信息为 [0.35300.8843]，后向LSTM产生该词的反向的信息为[0.7432 0.2356]，则该词的上下文表示向量为[0.3530 0.8843 0.7432 0.2356]。其中每个词的维度为4，该例句的维度为17*4，这个batch的数据维度8*20*4。

对于上述例子，句子中有17个节点，其中每个节点都有其特征，假设特征的维度为6维，则这点节点维度组成的矩阵为17*6，记为X，各个节点之间的特征组成的矩阵为17*17，记为A，A为邻接矩阵；针对出度和入度构造两个邻接矩阵

和

，则词语的出入度特征表示如下：

表示对节点i的出度信息的得到的特征表示，

表示对节点i的出度信息的得到的特征表示，将出度信息和入度信息特征拼接后得到节点i的出入度特征表示

。

对于上述例子，对输入进行了句法依存标注，将句子依存标注转换为邻接矩阵的格式，每个节点的初始化的特征使用的是词语联合向量

；假设gcn的图节点的特征输出维度为2，则“归谁所有”前向gcn生成的节点向量为[0.8129 0.6224]，后向gcn生成的节点向量为[0.5234 0.7242]，则双向gcn生成的词语“归谁所有”的依赖特征向量为[0.81290.6224 0.5234 0.7242]，则句子最终的维度为17*4，整个batch数据的维度为8*20*4。

将BiLSTM和BiGCN生成的向量拼接后就是该词最终的表示向量即[0.3530 0.88430.7432 0.2356 0.8129 0.6224 0.5234 0.7242]，对上述句子中的每个词都进行同样的运算，可以得到每个词的表示，这里示例中最后得到的句子向量维度为17*8，整个batch数据的维度为8*20*8。

解码：

通常，解码算法采用多层感知机（Multilayer Perceptron, MLP），固定标签分类问题，由于句子的长度不同，在预测其head标签的类别（head标签的类别个数是句子的长度）的个数就不同，MLP就不适用于head的分类，因此使用双仿射（biaffine）变换代替传统的MLP。

假设同一batch中所有的数据head标签只能是4个（即为固定类别），则对整个batch中数据的最终维度8*20*8进行MLP操作后，维度变为8*20*4，即对每个句子中的每个词语采用4维的向量表示，同时这4个向量值和为1，表示该词属于当前类别的概率，例“归谁所有”的向量为[0.112 0.311 0.101 0.476]，由于0.476最大，因此“归谁所有”属于类别4。

上述为固定类别分类，对于不定类别，例如句子长度为17时，类别数为17，则该句子经过MLP后维度应该为8*20*17，对于句子长度为9的句子，经过MLP后维度应该为8*20*9，所以句子长度为d时，句子中的每个词语经过MLP变换后的维度应该也是d，表示属于这d个类别的概率（和为1）；如果针对同一个batch中不同句子采用不同的权重矩阵W进行变换，则需要维护多个大小不同的权重矩阵，因此加入双仿射变换只需要维护一个权重矩阵来解决变长标签进行预测的问题。

Biaffine用一个传统的MLP(公式

)，但是对词表示部分的输出

进行堆叠后的R进行线性变换代替权重矩阵W，并且对R采用线性变换来替代偏置项b(公式

)。其中，d=N+1，N是句子中词语的个数，加1的原因是因为句子中有root虚根节点。

表示当前词通过词表示部分后的输出向量；即

，W是权重矩阵，b是偏置。对每个词都需要得到一个分数

，U(1)为权重矩阵，和（8）中的W含义相同，u(2)为偏置。

则公式

的维度变化为：

(d*k)(k*k)(k*1)+(d*k)(k*1) = d

符合上述对不定类别标签的分类的推理。

如果为U(1)加上偏置，同时句子中的每个词语同时计算，则维度变化为：

(d*(k+1))((k+1)*k)(k*d) = d*d

而对于与父节点关系标签（left，right，root，none；总共4个）和是否保留标签（1，0；总共2个）的预测，直接采用MLP进行预测即可。

在预测得到父节点位置标签和弧关系标签以及当前词是否保留的标签后，根据父节点位置标签和弧关系标签结合是否保留标签生成最终的生成语义图，如图6所示。图6对应的父节点位置标签、弧关系标签和是否保留标签如表1所示，因为句子中有些对句子语义没有实际意义的词不会构成节点，因此增加none节点作为这些词的父节点。

表1

其中，在父节点位置中，0表示根节点；与父节点的关系中，left表示该节点指向父节点，right表示父节点指向该节点，none表示该节点和父节点没有关系，root表示该节点为根节点；是否保留标签中，1表示该词语是语义图中的节点，0表示该节点不是语义图的节点。

如图7所示，提供一种语句的语义抽象化表示装置，所述装置包括：

预处理模块71，用于获取目标语句，并对目标语句进行预处理操作，得到处理后的语句，其中，所述预处理操作包括分词操作和词性标注操作；

特征提取模块72，用于从所述处理后的语句中提取多种特征，其中，所述特征包括以下至少一项：词语级别的特征、词性特征、依存特征和Bert获取到的词语的上下文相关特征；

编码模块73，用于对所述多种特征进行联合编码，以获取所述语句的最终向量；

解码模块74，用于对所述最终向量进行解码，以生成所述语句中不同词语之间的依赖关系；

生成模块75，用于根据所述不同词语之间的依赖关系生成所述语句对应的抽象语义图。

如图8所示，在一个实施例中，优选地，所述编码模块73包括：

第一确定单元81，用于根据所述词语级别的特征、词性特征和Bert获取到的词语的上下文相关特征，确定所述语句中每个词语的密集向量、词性标注的密集向量和Bert向量；

第一拼接单元82，用于对每个词语的密集向量、词性标注的密集向量和Bert向量进行拼接，得到每个词语对应的联合向量；

学习单元83，用于采用双向长短期记忆网络来学习每个词语的联合向量对应的上下文表示向量；

处理单元84，用于采用双向图卷积神经网络对所述每个词语的依存特征进行处理，以生成所述每个词语的依赖特征向量；

第二拼接单元85，用于将所述每个词语对应的上下文表示向量和依赖特征向量进行拼接，得到每个词语的最终向量；

第三拼接单元86，用于将每个词语的最终向量进行拼接得到所述语句的最终向量。

如图9所示，在一个实施例中，优选地，所述解码模块74包括：

第一生成单元91，用于使用双仿射算法对所述每个词语的最终向量进行预测，生成所述每个词语对应的父节点位置标签；

第二生成单元92，用于使用多层感知机算法对所述词语的最终向量进行预测，生成所述每个词语对应的弧关系标签和是否保留标签。

如图10所示，在一个实施例中，优选地，所述生成模块75包括：

第二确定单元1001，用于根据每个词语的是否保留标签确定是否保留该词语；

第三生成单元1002，用于对于保留下来的所有词语，根据对应的父节点位置标签和弧关系标签生成所述抽象语义图。

在一个实施例中，优选地，所述第一生成单元91用于：

使用以下公式计算每个词语对应的父节点位置标签的值；

其中，

表示父节点位置标签的值，R表示所述语句的最终向量，

表示权重矩阵，

表示偏置值，

表示第i个词语的最终向量。

存储器和处理器；

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器和光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。