CN113378547B

CN113378547B - 一种基于gcn的汉语复句隐式关系分析方法及装置

Info

Publication number: CN113378547B
Application number: CN202110663923.5A
Authority: CN
Inventors: 张沪寅; 孙凯丽; 郭迟; 李源; 郑浩; 陈佳杰
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-06-16
Filing date: 2021-06-16
Publication date: 2023-07-21
Anticipated expiration: 2041-06-16
Also published as: CN113378547A

Abstract

本发明提供了一种基于GCN的汉语复句隐式关系分析方法及装置，其构建的复句隐式关系识别模型依次将复句中的各分句进行分布式表示，得到一个高维序列化且具有上下文语义感知的字符级嵌入表示；将复句的字符级嵌入表示和词性嵌入表示进行拼接后输入到Bi‑LSTM递归神经网络，通过学习获得复句单词间的语义序列记忆特征，并将该记忆特征与拼接向量表示进行融合获得全局的语义特征表示；将复句中以单词为基本单元获取单元间存在的依存句法关系，并将其以矩阵的形式与全局语义特征共同输入至图卷积神经网络深度学习特征以实现隐式关系的分析识别；本发明解决了由于隐式句间关系语句没有较好的特征导致模型训练不充分、识别效果不好的问题。

Description

一种基于GCN的汉语复句隐式关系分析方法及装置

技术领域

本发明涉及自然语言处理领域，尤其涉及一种基于GCN(图卷积网络)的汉语复句隐式关系分析方法及装置。

背景技术

汉语复句的关系识别是汉语言语义分析的核心任务之一，旨在自动判别同一复句内部，两个乃至多个相邻或特定跨度范围内的文本片段间所蕴含的语义连接关系，例如：因果关系、并列关系等。这里的文本片段具体指具有完整语义的文字序列即子句、分句或连续的语段等。该任务在自然语言处理(Natural Language Processing,NLP)研究中是一项基础研究任务，正确的进行复句的机器理解和分析，不仅需要理解复句整体的结构和语义，还需理解复句内各语言组件间的关联和信息交互，挖掘复句的结构化和语义化信息。

本申请发明人在实施本发明的过程中，发现现有技术中存在如下技术问题：

隐式复句的关系识别的难点在于该任务的文本语料中缺少显示的关系连接词，缺乏较好的语义逻辑提示信息。与此同时，汉语复句语料稀少和样本的分布不平衡，造成隐式复句关系识别无法得到很好的解决。由此可知，现有技术的方法，由于隐式句间关系语句没有较好的特征导致模型训练不充分、识别效果不好。

发明内容

本发明提出一种基于GCN的汉语复句隐式关系分析方法及装置，用于解决或者至少部分解决现有技术中对汉语复句隐式关系识别准确率较低的技术问题。

为了解决上述技术问题，本发明提供了一种基于GCN的汉语复句隐式关系分析方法，包括：

S1：获取语料文本，通过数据集划分得到训练数据；

S2：构建复句隐式关系识别模型，其中，复句隐式关系识别模型包括嵌入模块、文本语义获取模块、依存句法关系图模块以及隐式关系判别模块，其中，嵌入模块用于获取语料文本的字符级嵌入表示和词性嵌入表示，文本语义获取模块用于采用Bi-LSTM循环神经网络对字符级嵌入表示和词性嵌入表示的拼接向量表示进行建模，获得复句单词间的语义序列记忆特征，依存句法关系图模块用于将复句以单词为基本单元，获取单元间存在的依存句法关系，隐式关系判别模块用于根据拼接向量、复句单词间的语义序列记忆特征以及单元间存在的依存句法关系得到语义以及句法结构的交互信息，并得到关系分类；

S3：利用训练数据对复句隐式关系识别模型进行训练，使用交叉熵作为损失函数，得到训练好的复句隐式关系识别模型；

S4：利用训练好的复句隐式关系识别模型对汉语复句隐式关系进行判别。

在一种实施方式中，步骤S2中嵌入模块的处理过程包括：

依次将复句中的各分句进行分布式表示，得到字符级嵌入表示；

将词性生成为独热编码的形式，依次生成句子单词对应位置的词性嵌入表示。

在一种实施方式中，步骤S2中依存句法关系图模块的处理过程包括：

依次对复句进行句法解析将单词间存在的依存关系进行提取，以矩阵的形式进行存储，该矩阵为构建的依存句法关系图结构，其中，依存关系包括：主谓关系、动宾关系。

在一种实施方式中，步骤S2中隐式关系判别模块处理过程包括：

将拼接向量与复句单词间的语义序列记忆特征进行融合，获得全局语义特征表示；

将全局语义特征表示与复句的依存关系图同时输入图卷积神经网络，过滤得到语义以及句法结构的交互信息，其中，复句的依存关系图为存储单元间存在的依存句法关系的结构。

在一种实施方式中，图卷积神经网络用于实现在图结构数据上的卷积操作，根据结点的邻域属性推导结点的嵌入向量，全局语义特征表示为一个N×D维的特征矩阵X，共有N个节点，每个节点对应的是一个D维的特征向量，其中，N为每条汉语复句文本所对应的单词个数，各单词间组成N×N维的邻接关系矩阵A，

令I为单位矩阵，全局语义特征矩阵X和邻接关系矩阵/>为图卷积神经网络GCN的输入，此神经网络层与层之间信息传播的计算公式如下所示：

其中，表示/>的度矩阵，W(l)表示图卷积网络第l层的权重参数，σ()表示图卷积网络的激活函数。

基于同样的发明构思，本发明第二方面提供了一种基于GCN的汉语复句隐式关系分析装置，包括：

数据集获取模块，用于获取语料文本，通过数据集划分得到训练数据；

模型构建模块，用于构建复句隐式关系识别模型，其中，复句隐式关系识别模型包括嵌入模块、文本语义获取模块、依存句法关系图模块以及隐式关系判别模块，其中，嵌入模块用于获取语料文本的字符级嵌入表示和词性嵌入表示，语义获取模块用于采用Bi-LSTM循环神经网络对字符级嵌入表示和词性嵌入表示的拼接向量表示进行建模，获得复句单词间的语义序列记忆特征，依存句法关系图模块用于将复句以单词为基本单元，获取单元间存在的依存句法关系，隐式关系判别模块用于根据拼接向量、复句单词间的语义序列记忆特征以及单元间存在的依存句法关系得到语义以及句法结构的交互信息，并得到关系分类；

模型训练模块，用于利用训练数据对复句隐式关系识别模型进行训练，使用交叉熵作为损失函数，得到训练好的复句隐式关系识别模型；

隐式关系分类模块，用于利用训练好的复句隐式关系识别模型对汉语复句隐式关系进行判别。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明的复句隐式关系分析方法中，构建的复句隐式关系识别模型，通过嵌入模块可以获取语料文本的字符级嵌入表示和词性嵌入表示，通过语义获取模块采用Bi-LSTM循环神经网络对字符级嵌入表示和词性嵌入表示的拼接向量表示进行建模，获得复句单词间的语义序列记忆特征，通过依存句法关系图模块将复句以单词为基本单元，获取单元间存在的依存句法关系，最后通过隐式关系判别模块用于根据拼接向量、复句单词间的语义序列记忆特征以及单元间存在的依存句法关系得到语义以及句法结构的交互信息，并得到关系分类。由于本发明采用了融合词嵌入的方法，并充分利用了句法结构特征，能够获得更好的识别结果，解决了由于隐式句间关系语句没有较好的特征导致模型训练不充分、识别效果不好的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中复句隐式关系识别模型训练框架示意图。

具体实施方式

本申请发明人通过大量的研究与实践发现：

目前，深度神经网络的方法在语义分析等相关自然语言处理任务中得到了广泛的应用。该类方法相较于传统的方法能够在很大程度上缓解特征工程的工作量，节省大量的人工和时间并取得较好的效果。而图卷积神经网络是一个多层的神经网络结构，能够有效的捕获图结构数据中全局关系特征。双向长短时记忆神经网络是循环神经网络的一个拓展，它能够较好的针对时间序列的数据建模，有效的捕捉时间序列信息特征。这两种网络结构以及特性与自然语言文本中的句内句法关系的网络图和单词词汇的前后顺序关系非常契合。因此，在很多自然语言处理任务中，图卷积神经网络和循环神经网络都取得了不错的效果并且得到了诸多研究者的认可。

基于此，本发明提供了一种基于依存关系构建图卷积网络的汉语复句隐式关系分析方法。旨在解决传统方法中特征稀疏、信息错误传递的问题。

本发明的复句隐式关系分析方法包括：依次将复句中的各分句进行分布式表示，得到一个高维序列化且具有上下文语义感知的字符级向量表征(Token embedding字符级嵌入表示)；将复句的字符级向量表征(Token embedding)和(Pos embedding词性嵌入表示)进行拼接后输入到Bi-LSTM递归神经网络，通过学习获得复句单词间的语义序列记忆特征，并将该语义序列记忆特征与Token embedding和Pos embedding拼接后的向量表示进行融合获得全局语义特征表示；将复句中以单词为基本单元获取单元间存在的依存句法关系，并将其以矩阵的形式与全局语义特征共同输入至图卷积神经网络深度学习特征以实现隐式关系的分析识别。本发明采用了融合词嵌入的方法，并充分利用了句法结构特征，能够获得更好的识别结果，解决了由于隐式句间关系语句没有较好的特征导致模型训练不充分、识别效果不好的问题。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种基于GCN的汉语复句隐式关系分析方法，包括：

S1：获取语料文本，通过数据集划分得到训练数据；

S2：构建复句隐式关系识别模型，其中，复句隐式关系识别模型包括嵌入模块、文本语义获取模块、依存句法关系图模块以及隐式关系判别模块，其中，嵌入模块用于获取语料文本的字符级嵌入表示和词性嵌入表示，语义获取模块用于采用Bi-LSTM循环神经网络对字符级嵌入表示和词性嵌入表示的拼接向量表示进行建模，获得复句单词间的语义序列记忆特征，依存句法关系图模块用于将复句以单词为基本单元，获取单元间存在的依存句法关系，隐式关系判别模块用于根据拼接向量、复句单词间的语义序列记忆特征以及单元间存在的依存句法关系得到语义以及句法结构的交互信息，并得到关系分类；

具体来说，图卷积神经网络(GCN)是一个多层的神经网络结构能够直接工作在图数据中，实现了神经网络由网格数据的卷积到图结构数据卷积的变换。GCN能够捕捉图结构的高阶邻域信息，并且能够在图嵌入中保存图结构的全局信息。

双向长短时记忆网络(Bi-LSTM)是循环神经网络(Recurrent Neural Network,RNN)的一种特殊形式，它由前向和反向的LSTM单元组成，引入了记忆模块的概念，使用门控机制对信息的输入、遗忘和输出进行控制。从而，有效的解决RNN中梯度消失的问题。

双向长短时记忆网络(Bi-LSTM)主要引入了门控机制包括输入门，遗忘门和输出门，其概念实则是一个全连接层，它的输入是上一时刻的隐藏层状态，输出是其细胞状态的每一个单元的信息乘数因子，该因子的大小控制输入信息流的再输入、输出和需要遗忘的选择项。门控机制的结构如下所示：

gate(x)＝σ(Wx+b)

其中，W是门控机制中全连接层的权重系数，b为偏置项。

输入门i_t，遗忘门f_t和输出门o_t是将t时刻的输入X_t整合进入到当前细胞状态的权重，具体公式如下所示：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)

f_t＝σ(W_xfx_i+W_hfh_t-1+W_cfc_t-1+b_f)

O_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t-1+b_o)

其中，W_xi，W_hi，W_ci是输入门i_t网络训练的权重系数，W_xf，W_hf，W_cf是遗忘门f_t的网络训练权重系数，W_xo，W_ho，W_co是输出门o_t中网络训练的权重系数，b_i，b_f，b_o分别是输入门i_t，遗忘门f_t，和输出门o_t所对应的偏置项。

t时刻的信息都是由上一时刻的隐藏层向量h_t-1和状态向量c_t-1共同整合加权得到的向量值。经过以上输入、遗忘和输出门的映射之后当前时刻的细胞状态c_t和隐藏向量h_t的更新是由上一时刻的隐藏状态h_t-1和状态向量c_t-1，以及遗忘门与输入门共同作用得到的，计算如下所示：

c_t＝f_t×c_t-1+i_t×tanh(W_xcx_t+W_hch_t-1+b_c)

h_t＝o_t×tanh(c_t)

同样，W_xc，W_hc和b_c分别是权重系数和偏置项。

总体来说，通过嵌入模块获得的分词后的词性标注，将其处理成一定维度的词性特征向量(词性嵌入表示)，同时将句子映射到字符级别的BERT预训练模型中形成字符级嵌入表示，词性嵌入表示向量和字符级嵌入表示向量进行拼接输入到Bi-LSTM循环神经网络中进行训练学习。复句隐式关系识别模型共有一个双向长短时记忆网络单元用于提取上下文序列语义特征，一个图卷积神经网络单元用于提取句子对应的图结构蕴含的句法依赖关系特征。最后将语义以及句法依赖关系特征进行融合输出到激活函数层中，并计算最终的损失值。基于依存关系构建图卷积网络的复句隐式关系学习网络的底层权重共享机制实现了充分挖掘单词间的上下文语义特征，增强上层网络的特征学习能力。同时，方案中的融合词嵌入模型以及词性标注的方法能够充分挖掘文本的自身依赖信息。经过验证，该方法达到了较好的识别复句隐式句间关系的性能。

本发明的研究以及应用前景是十分广阔的，本发明可以解决汉语复句隐式句间关系的问题。因此该发明能够有效的提升中英文文本机器翻译、对话系统和抽取式摘要等系统的性能，对其他多种自然语言处理的研究起到了辅助推动作用。本发明使用的基于依存句法构建图卷积网络的汉语复句隐式句间关系分析方法相比现存的算法具有更高的准确率和实用性。

在一种实施方式中，步骤S2中嵌入模块的处理过程包括：

具体来说，融合词嵌入模型用于构建句子的向量表示，在具体实施过程中采用词嵌入模型中具有高效性能表现的BERT模型。在模型的输入最初对句子进行分割为以字为单位的token，再将各token映射至预训练的BERT模型得到句子的文本向量表示，即字符级嵌入表示。

融合词嵌入预训练模型，充分利用了文本的上下文语义信息，从特征工程的视角丰富向量所表示的内容。与此同时本申请引入句子单词词性的序列嵌入表示，一定程度上反应了句子的句法信息，词性共包含36种，在融合词性嵌入向量的过程中：首先将词性生成为独热编码的形式，依次生成句子单词对应位置的词性表示，并将词性嵌入表示与通过预训练模型BERT得到的字符级嵌入表示进行拼接，得到拼接向量。

具体实施过程中，单词间存在的依存关系如：SBV(主谓关系)、VOB(动宾关系)、ADV(状中关系)、POB(动宾关系)，ROOT(谓词)等。

具体实施过程中，图卷积神经网络在训练时需要一个图结构的数据，本发明通过句子的依存句法结构关系建立图G＝(V,E)，节点为单词向量V，节点间的边E为单词与单词间的依存句法关系。以此实现图卷积网络的卷积操作提取特征。

具体实施过程中，复句隐式关系识别模型的网络结构如图1所示，共分为上下结构，上方结构主要作用为文本的语义编码即获取丰富的上下文语义特征信息。下方主要为基于依存句法关系的句法结构图的构建以及图卷积网络的特征融合，最后将融合特征输入到softmax层中，计算最终的概率值分布。

图1是本发明一种实施例的模型训练框架示意图，其中，Token embedding：文本的字符级嵌入表示，Pos embedding:文本中单词的词性嵌入表示，Dependency graph:文本根据依存句法树所构建的依存句法图。

复句隐式关系识别模型由上下两个处理组件组成，图的上方组件主要使用Bi-LSTM循环神经网络对句子的向量表示建模获取文本的序列上下文信息。下方组件主要是利用图卷积网络对句子的句法结构关系建模，该模块中，首先将复句通过使用哈工大语言技术LTP-Cloud，调用相应的API接口对语句的各单词构建依存句法分析。通过该依存句法分析对每个复句建立其对应的图结构关系，并转换为矩阵的形式存储。此时，将句子的依存句法关系图和经循环神经网络抽取的语义上下文特征序列共同输入至图卷积神经网络中，以获取各单词节点间的关联交互信息特征。最后，将其结果输入到softmax层中，并计算最终的损失函数值。

每个时刻输入的字符级向量表示为x∈R^d相关联，其中d是字向量的维度。各语句被视为字向量序列，表示为：X＝{x₁,x₂,x₃...,x_n}，这里x_i∈R^d(i＝1,...,n)即表示句子X中的第i时刻的字符，n为句子长度。

针对完整的复句逐一进行分词，并标注各单词词性以独热编码的形式表达。本发明将单词词性归纳为36种，即每个单词的词性标注向量为36维向量表征P_i∈R^d1(i＝1,...,n)。

其中/>为拼接符号，将字符级别的向量表示X与词性向量特征P进行拼接之后赋值给X，X即为拼接后的全局语义特征向量表示。

构建各语句对应的依存关系图，语句中各单词间存在的句法关系例如：SBV(主谓关系)、VOB(动宾关系)、ADV(状中关系)、POB(动宾关系)，ROOT(谓词)等。这些关系将具有一定跨度的非连续性单词建立了联系。本发明中使用数字“0”、“1”表示单词间是否存在依存关系特征，即构建的依存关系图为：G＝(V,E)，V是一个节点集合包含每条复句的所有单词，E是一个边集合包含了两两单词间存在的依存关系。本发明将依存关系图G转换为邻接矩阵的形式记作A。其中，A_ij值为1表示从节点i到j存在依存关系。

按照模型执行顺序将其合并后的文本向量表征X输入至Bi-LSTM循环神经网络中提取序列的上下文语义特征h_t，其公式计算如下所示：

h_t＝Bi-LSTM(h_t-1,X)，其中Bi-LSTM()表示为双向长短时记忆网络。

以下进入图卷积网络建模阶段，将以上步骤中生成的文本语义隐藏层向量h_t与依存关系邻接矩阵A共同输入至图卷积神经网络模型中，抽取深层的句内各单词成分间的交互信息特征。计算公式如下：

最终，将经图卷积网络提取的全局特征表示G^(l+1)输入至softmax函数获取预测值。本发明模型训练使用交叉熵(Cross Entropy)作为损失函数，y_pred表示预测值，其公式如下：

y_pred＝softmax(G^(l+1))

该网络结构设计旨在使用图卷积网络能够针对图数据进行卷积操作的特性，针对句子蕴含的句法结构信息深度挖掘各单词间的关联特征，以此增强网络模型的学习能力。

实施例二

基于同样的发明构思，本发明还提供了一种基于GCN的汉语复句隐式关系分析装置，包括：

由于本发明实施例二所介绍的装置，为实施本发明实施例一中基于GCN的汉语复句隐式关系分析方法所采用的装置，故而基于本发明实施例一所介绍的方法，本领域所属技术人员能够了解该装置的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于GCN的汉语复句隐式关系分析方法，其特征在于，包括：

S1：获取语料文本，通过数据集划分得到训练数据；

2.如权利要求1所述的汉语复句隐式关系分析方法，其特征在于，步骤S2中嵌入模块的处理过程包括：

3.如权利要求1所述的汉语复句隐式关系分析方法，其特征在于，步骤S2中依存句法关系图模块的处理过程包括：

4.如权利要求1所述的汉语复句隐式关系分析方法，其特征在于，步骤S2中隐式关系判别模块处理过程包括：

5.如权利要求4所述的汉语复句隐式关系分析方法，其特征在于，图卷积神经网络用于实现在图结构数据上的卷积操作，根据结点的邻域属性推导结点的嵌入向量，全局语义特征表示为一个N×D维的特征矩阵X，共有N个节点，每个节点对应的是一个D维的特征向量，其中，N为每条汉语复句文本所对应的单词个数，各单词间组成N×N维的邻接关系矩阵A，

其中，表示/>的度矩阵，W^(l)表示图卷积网络第l层的权重参数，σ()表示图卷积网络的激活函数。

6.一种基于GCN的汉语复句隐式关系分析装置，其特征在于，包括：