CN108875000A

CN108875000A - 一种融合多句法结构的语义关系分类方法

Info

Publication number: CN108875000A
Application number: CN201810614041.8A
Authority: CN
Inventors: 郝志峰; 陈培辉; 蔡瑞初; 温雯; 王丽娟; 陈炳丰
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2018-06-14
Filing date: 2018-06-14
Publication date: 2018-11-23
Anticipated expiration: 2038-06-14
Also published as: CN108875000B

Abstract

本发明涉及自然语言处理技术领域，涉及一种融合多句法结构的语义关系分类方法，包括以下步骤，先对文本序列进行数据预处理；然后对文本序列的向量进行双向编码，利用注意力机制对编码信息进行加权学习，通过CRF对加权后的编码信息进行双向解码，获取文本序列上的实体标签信息；然后构造联合向量，构造融合多句法的复杂网络，利用共享参数进行端到端的训练，获取三元组上的隐状态并进行拼接，经线性变换后输出语义关系类别。本发明基于叠层的循环神经网络模型，将多种句法结构进行融合，解决了单一句法结构模型无法有效适应其他句法结构的问题，从而能有效处理不同的句法结构，提高了模型的鲁邦性，并提升了分类效率。

Description

一种融合多句法结构的语义关系分类方法

技术领域

本发明涉及自然语言处理技术领域，更具体地说，涉及一种融合多句法结构的语义关系分类方法。

背景技术

随着互联网发展，非结构化的文本正在以指数级爆发式增长，通过利用自动化抽取工具将非结构化的文本转化为结构化的知识，将这些结构化知识应用于检索系统和知识库的构建中，能够有效帮助人们提高工作效率。语义关系分类是其中的重要技术手段之一。

语义关系分类包含实体识别和关系分类两个子任务，对应的方法分别是基于序列标注和基于句法结构。已有的语义关系分类过程主要采用单一特定的句法结构，而单一特定的句法结构模型无法有效处理其他句法结构的问题。比如，对于SDP结构的模型，在处理其他结构如SubTree和FullTree结构时会存在信息丢失，但简洁的结构在训练速度上较快；而SubTree和FullTree结构在文本和结构信息上更丰富，但训练速度较慢。目前没有一个具备鲁棒性的方法来兼具这三者的优点，从而达到一个更加稳定高效的分类结果。

随着深度学习的发展，通过利用神经网络模型，借助共享参数，构造大型学习矩阵，利用反向传播的机制来优化模型，在效果方面已经超过了传统的机器学习方法，因此基于深度学习的方法成为当下的主流做法。我们的目标就是利用神经网络融合不同的句法结构，从而为输入的文本输出其语义关系。但不同的句法结构具备不同的形式，必须将其处理成具备某种共性的数据，并转化为向量的形式输入到网络中进行训练。因此，如何将多种不同的句法结构融合到一个网络中，使得网络具备自适应不同句法结构的鲁棒能力，具备一定的研究价值和意义。

发明内容

有鉴于此，本发明提供了一种融合多句法结构的语义关系分类方法，以解决现有技术中没办法有效融合多种句法结构信息的缺陷。

一种融合多句法结构的语义关系分类方法，其特征在于，包括以下步骤：

S1、对文本序列进行数据预处理，获取该文本序列S＝{S₁,S₂,...,S_n}的词性标签P＝{P₁,P₂,...,P_n}和依赖关系标签D＝{D₁,D₂,...,D_n}；在步骤S1中，对要输入网络的文本序列S＝{S₁,S₂,...,S_n}进行预处理，通过利用Stanford解析工具获取该文本序列的词性标签P＝{P₁,P₂,...,P_n}和依赖关系标签D＝{D₁,D₂,...,D_n}，文本序列 S＝{S₁,S₂,...,S_n}中每一个字符S_n对应一个词性标签P_n和关系标签D_n，均作为网络训练的数据输入；

S2、对文本序列S＝{S₁,S₂,...,S_n}以及词性标签P＝{P₁,P₂,...,P_n}进行双向编码h＝{h₁,h₂}与加权学习获得加权后的双向编码h'＝{h'₁,h'₂}，并对加权后的双向编码 h'＝{h'₁,h'₂}进行解码获得该文本序列S＝{S₁,S₂,...,S_n}的实体标签L＝{L₁,L₂,...,L_n}；步骤S2具体为：S21、对文本序列S＝{S₁,S₂,...,S_n}以及词性标签P＝{P₁,P₂,...,P_n}进行拼接，得到文本词性拼接向量V＝{S_n,P_n}；S22、将文本词性拼接向量V＝{S_n,P_n} 输入到双向循环神经网络Bi-LSTM中，获取两个方向的隐状态向量h1和h2；S23、对隐状态向量h1和h2进行拼接获得双向编码h＝{h₁,h₂}；S24、利用注意力机制对双向编码h＝{h₁,h₂}进行加权学习并获得加权后的双向编码h'＝{h'₁,h'₂}，所述步骤S24具体为：将双向编码h＝{h₁,h₂}输入到基于word-level的Attention机制模型中进行加权学习，获得加权后的双向编码h'＝{h'₁,h'₂}；S25、对加权后的双向编码h'＝{h₁',h₂}'进行解码获得该文本序列S＝{S₁,S₂,...,S_n}的实体标签L＝{L₁,L₂,...,L_n}，所述步骤S25具体为：采用标准的CRF模型，基于BILOU标注模式，通过极大似然估计的方式，对加权后的双向编码h'＝{h'₁,h'₂}进行解码获得该文本序列S＝{S₁,S₂,...,S_n}的实体标签L＝{L₁,L₂,...,L_n}。

S3、利用依赖关系标签D＝{D₁,D₂,...,D_n}、双向编码h＝{h₁,h₂}以及实体标签 L＝{L₁,L₂,...,L_n}构建联合向量V＝{D,h,L},并利用联合向量V＝{D,h,L}对双向树结构网络进行端到端的训练，获取文本序列S＝{S₁,S₂,...,S_n}的三元组结构化信息并进行非线性变换后输出语义关系类别。S31、将双向编码h＝{h₁,h₂}以及实体标签L＝{L₁,L₂,...,L_n}嵌套到关系层的依赖关系标签D＝{D₁,D₂,...,D_n}上进行拼接，获得联合向量V＝{D,h,L}；S32、构建基于双向循环的树结构网络Bi-Tree-LSTM模型；S33、将联合向量V＝{D,h,L}输入到基于双向循环的树结构网络Bi-Tree-LSTM 模型中进行端到端训练，得到文本序列S＝{S₁,S₂,...,S_n}的三元组结构化信息向量； S34、对文本序列S＝{S₁,S₂,...,S_n}的三元组结构化信息进行拼接并进行非线性变换得到候选关系D_p；S35、对候选关系D_p输入到分类器C得到该文本序列 S＝{S₁,S₂,...,S_n}的语义关系类别。

从上述的技术方案可以看出，本发明先对文本序列进行数据预处理(包括词性解析和句法解析)；其次，在序列层上，将文本序列的向量进行双向编码，利用注意力机制对编码信息进行加权学习，通过CRF对加权后的编码信息进行双向解码，获取文本序列上的实体标签信息；然后，在关系层上，首先构造联合向量，基于双向树结构网络，构造融合多句法的复杂网络，利用共享参数进行端到端的训练，获取三元组上的隐状态并进行拼接，作进一步的线性变换，最终输出语义关系类别；因此，本发明将文本序列统一处理转换为向量形式输入到神经网络模型中，借助共享参数，构造大型学习矩阵，利用反向传播的机制来优化模型，利用神经网络融合不同的句法结构，使得网络具备自适应不同句法结构的鲁棒能力，解决了现有技术中没办法有效融合多种句法结构信息的缺陷，有效提高了模型的鲁邦性和分类效率。

附图说明

图1为一种融合多句法结构的语义关系分类方法的处理流程图。

图2为一种融合多句法结构的语义关系分类方法的叠层神经网络结构图。

图3为一种融合多句法结构的语义关系分类方法的具体步骤流程框图。

图4为步骤S2的具体步骤流程框图。

图5为步骤S3的具体步骤流程框图。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所述的附图作简单地介绍，显而易见，下面的描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

具体实施方式

如图1-5所示，本发明实施例公开了一种融合多句法结构的语义关系分类方法，包括以下步骤：

S1、对文本序列进行数据预处理，获取该文本序列S＝{S₁,S₂,...,S_n}的词性标签P＝{P₁,P₂,...,P_n}和依赖关系标签D＝{D₁,D₂,...,D_n}；在步骤S1中，对要输入网络的文本序列S＝{S₁,S₂,...,S_n}进行预处理，通过利用Stanford解析工具获取该文本序列的词性标签P＝{P₁,P₂,...,P_n}和依赖关系标签D＝{D₁,D₂,...,D_n}，文本序列 S＝{S₁,S₂,...,S_n}中每一个字符S_n对应一个词性标签P_n和关系标签D_n，均作为网络训练的数据输入。

在该步骤中，该Stanford解析工具为现有的文本序列解析工具，其目的是将文本序列S＝{S₁,S₂,...,S_n}分析处理成词性标签P＝{P₁,P₂,...,P_n}和依赖关系标签D＝{D₁,D₂,...,D_n}，用户可根据实际需求选择不同的解析工具，只要能实现将文本序列S＝{S₁,S₂,...,S_n}分析处理成词性标签P＝{P₁,P₂,...,P_n}和依赖关系标签 D＝{D₁,D₂,...,D_n}的目的即可。

S2、对文本序列S＝{S₁,S₂,...,S_n}以及词性标签P＝{P₁,P₂,...,P_n}进行双向编码h＝{h₁,h₂}与加权学习获得加权后的双向编码h'＝{h'₁,h'₂}，并对加权后的双向编码 h'＝{h'₁,h'₂}进行解码获得该文本序列S＝{S₁,S₂,...,S_n}的实体标签L＝{L₁,L₂,...,L_n}；步骤S2具体为：S21、对文本序列S＝{S₁,S₂,...,S_n}以及词性标签P＝{P₁,P₂,...,P_n}进行拼接，得到文本词性拼接向量V＝{S_n,P_n}；S22、将文本词性拼接向量V＝{S_n,P_n} 输入到双向循环神经网络Bi-LSTM中，获取两个方向的隐状态向量h1和h2；S23、对隐状态向量h1和h2进行拼接获得双向编码h＝{h₁,h₂}；S24、利用注意力机制对双向编码h＝{h₁,h₂}进行加权学习并获得加权后的双向编码h'＝{h'₁,h'₂}，所述步骤S24具体为：将双向编码h＝{h₁,h₂}输入到基于word-level的Attention机制模型中进行加权学习，获得加权后的双向编码h'＝{h'₁,h'₂}；S25、对加权后的双向编码h'＝{h₁',h₂}'进行解码获得该文本序列S＝{S₁,S₂,...,S_n}的实体标签 L＝{L₁,L₂,...,L_n}，所述步骤S25具体为：采用标准的CRF模型，基于BILOU标注模式，通过极大似然估计的方式，对加权后的双向编码h'＝{h'₁,h'₂}进行解码获得该文本序列S＝{S₁,S₂,...,S_n}的实体标签L＝{L₁,L₂,...,L_n}。

在步骤S21中，主要是采用将后一个序列向量链接到前一个序列向量的尾端，在此处，主要是将词性标签P＝{P₁,P₂,...,P_n}链接到文本序列S＝{S₁,S₂,...,S_n}的尾端，形成文本词性拼接向量V＝{S_n,P_n}。

在步骤S22中，该双向循环神经网络Bi-LSTM主要含有输入门i_t、忘记门f_t、候选状态u_t以及输出门o_t；先将文本词性拼接向量V＝{S_n,P_n}输入到输入门i_t中，利用预设的输入门处理算法i_t＝σ(W⁽ⁱ⁾x_t+U⁽ⁱ⁾h_t-1+b⁽ⁱ⁾)对文本词性拼接向量V＝{S_n,P_n}进行数据向量预处理；然后再利用预设的忘记门f_t处理算法f_t＝(W^(f)x_t+U^(f)h_t-1+b^(f))，对文本词性拼接向量V＝{S_n,P_n}进行数据遗忘处理，使得该双向循环神经网络 Bi-LSTM遗忘部分无用信息；然后再利用候选状态u_t处理算法 o_t＝σ(W^(o)x_t+U^(o)h_t-1+b^(o))，使得该双向循环神经网络Bi-LSTM在遗忘部分无用信息后再次学习候选信息，对忘记门f_t进行补充，最后经过出门o_t处理算法组输出两个方向的隐状态向量h1和h2；其中，σ是逐元素的非线性sigmoid函数，是逐元素的积，W和U是权重矩阵，b是偏置向量，h_t-1是前一时刻的隐状态，c_t是新的长记忆信息，c_t-1是前一时刻的长记忆信息。

在步骤S23中，主要是采用将后一个序列向量链接到前一个序列向量的尾端，在此处，主要是将隐状态向量h2链接到隐状态向量h1的末端形成双向编码h＝{h₁,h₂}。

在步骤S24中，先利用权重公式z_t＝tanh(W^(w)s_t),将双向编码h＝{h₁,h₂}与权重矩阵相乘并进行非线性变化得到权重向量z_t；然后再利用权重标量公式计算得到权重标量α_t，最后利用加权向量信息公式将权重标量α_t与双向编码h＝{h₁,h₂}进行加权，得到最终的加权向量信息r，即得到加权后的双向编码h'＝{h'₁,h'₂}。

在步骤S25中，主要是定义好一组特征函数f后，给每个特征函数f_j赋予一个权重λ_j，接收加权后的双向编码h'＝{h'₁,h'₂}，利用定义的特征函数f来对双向编码h'＝{h'₁,h'₂}的序列l进行评分；然后利用标准化公式对这个分数进行指数化和标准化，得到双向编码h'＝{h'₁,h'₂}的序列l的概率值p(l|r)，从而确定相应的实体标签。

S3、利用依赖关系标签D＝{D₁,D₂,...,D_n}、双向编码h＝{h₁,h₂}以及实体标签 L＝{L₁,L₂,...,L_n}构建联合向量V＝{D,h,L},并利用联合向量V＝{D,h,L}对双向树结构网络进行端到端的训练，获取文本序列S＝{S₁,S₂,...,S_n}的三元组结构化信息并进行拼接与非线性变换后输出语义关系类别。S31、将双向编码h＝{h₁,h₂}以及实体标签L＝{L₁,L₂,...,L_n}嵌套到关系层的依赖关系标签D＝{D₁,D₂,...,D_n}上进行拼接，获得联合向量V＝{D,h,L}；S32、构建基于双向循环的树结构网络 Bi-Tree-LSTM模型；S33、将联合向量V＝{D,h,L}输入到基于双向循环的树结构网络Bi-Tree-LSTM模型中进行端到端训练，得到文本序列S＝{S₁,S₂,...,S_n}的三元组结构化信息向量；S34、对文本序列S＝{S₁,S₂,...,S_n}的三元组结构化信息拼接并进行非线性变换得到候选关系D_p；S35、对候选关系D_p输入到分类器C得到该文本序列S＝{S₁,S₂,...,S_n}的语义关系类别。

在步骤S31中，主要是采用将后一个序列向量链接到前一个序列向量的尾端，在此处，主要是将双向编码h＝{h₁,h₂}链接到依赖关系标签D＝{D₁,D₂,...,D_n}的末端，然后再将实体标签L链接到双向编码h＝{h₁,h₂}的末端，从而得到联合向量V＝{D,h,L}。

在步骤S32-S33中，其主要过程为：先定义结点信息：一种是SDP路径上的结点，另一种是SubTree和FullTree上除了最短路径之外的其他所有结点；然后对于第t个字，将其联合向量Vt与权重矩阵进行相乘，并对该字在三种不同的句法结构下进行学习，同时要统计该字的孩子结点数量。该结构与步骤S22 的双向循环神经网络Bi-LSTM类似，余下步骤均仿照S22；然后依据公式

c_t＝i_t⊙u_t+f⊙c_t-1

h_t＝o_t⊙tanh(c_t)

输出文本序列S＝{S₁,S₂,...,S_n}的三元组结构化信息向量，公式中各个字母符号跟步骤S22保持一致，即其中，σ是逐元素的非线性sigmoid函数，是逐元素的积，W和U是权重矩阵，b是偏置向量，h_t-1是前一时刻的隐状态，c_t是新的长记忆信息，c_t-1是前一时刻的长记忆信息。

在步骤S34-S35中，其主要过程为：先将文本序列S＝{S₁,S₂,...,S_n}的三元组结构化信息向量与权重矩阵相乘，如公式所示加上偏置向量，作进一步的非线性变换，得到候选关系D_p，；然后再候选关系D_p输入到分类器 C中，利用分类器C中的分类公式得到该文本序列 S＝{S₁,S₂,...,S_n}的语义关系类别。

因此，在本实施例中，本发明将文本序列统一处理转换为向量形式输入到神经网络模型中，借助共享参数，构造大型学习矩阵，利用反向传播的机制来优化模型，利用神经网络融合不同的句法结构，使得网络具备自适应不同句法结构的鲁棒能力，解决了现有技术中没办法有效融合多种句法结构信息的缺陷，有效提高了模型的鲁邦性和分类效率。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分相互参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种融合多句法结构的语义关系分类方法，其特征在于，包括以下步骤：

S1、对文本序列进行数据预处理，获取该文本序列S＝{S₁,S₂,...,S_n}的词性标签P＝{P₁,P₂,...,P_n}和依赖关系标签D＝{D₁,D₂,...,D_n}；

S2、对文本序列S＝{S₁,S₂,...,S_n}以及词性标签P＝{P₁,P₂,...,P_n}进行双向编码h＝{h₁,h₂}与加权学习获得加权后的双向编码h'＝{h'₁,h'₂}，并对加权后的双向编码h'＝{h'₁,h'₂}进行解码获得该文本序列S＝{S₁,S₂,...,S_n}的实体标签L＝{L₁,L₂,...,L_n}；

S3、利用依赖关系标签D＝{D₁,D₂,...,D_n}、双向编码h＝{h₁,h₂}以及实体标签L＝{L₁,L₂,...,L_n}构建联合向量V＝{D,h,L},并利用联合向量V＝{D,h,L}对双向树结构网络进行端到端的训练，获取文本序列S＝{S₁,S₂,...,S_n}的三元组结构化信息并进行非线性变换后输出语义关系类别。

2.如权利要求1所述的一种融合多句法结构的语义关系分类方法，其特征在于，在步骤S1中，对要输入网络的文本序列S＝{S₁,S₂,...,S_n}进行预处理，通过利用Stanford解析工具获取该文本序列的词性标签P＝{P₁,P₂,...,P_n}和依赖关系标签D＝{D₁,D₂,...,D_n}，文本序列S＝{S₁,S₂,...,S_n}中每一个字符S_n对应一个词性标签P_n和关系标签D_n，均作为网络训练的数据输入。

3.如权利要求1所述的一种融合多句法结构的语义关系分类方法，其特征在于，步骤S2具体为：

S21、对文本序列S＝{S₁,S₂,...,S_n}以及词性标签P＝{P₁,P₂,...,P_n}进行拼接，得到文本词性拼接向量V＝{S_n,P_n}；

S22、将文本词性拼接向量V＝{S_n,P_n}输入到双向循环神经网络Bi-LSTM中，获取两个方向的隐状态向量h1和h2；

S23、对隐状态向量h1和h2进行拼接获得双向编码h＝{h₁,h₂}；

S24、利用注意力机制对双向编码h＝{h₁,h₂}进行加权学习并获得加权后的双向编码h'＝{h'₁,h'₂}；

S25、对加权后的双向编码h'＝{h'₁,h'₂}进行解码获得该文本序列S＝{S₁,S₂,...,S_n}的实体标签L＝{L₁,L₂,...,L_n}。

4.如权利要求3所述的一种融合多句法结构的语义关系分类方法，其特征在于，所述步骤S24具体为：将双向编码h＝{h₁,h₂}输入到基于word-level的Attention机制模型中进行加权学习，获得加权后的双向编码h'＝{h'₁,h'₂}。

5.如权利要求3所述的一种融合多句法结构的语义关系分类方法，其特征在于，所述步骤S25具体为：采用标准的CRF模型，基于BILOU标注模式，通过极大似然估计的方式，对加权后的双向编码h'＝{h'₁,h'₂}进行解码获得该文本序列S＝{S₁,S₂,...,S_n}的实体标签L＝{L₁,L₂,...,L_n}。

6.如权利要求1所述的一种融合多句法结构的语义关系分类方法，其特征在于，所述步骤S3具体为：

S31、将双向编码h＝{h₁,h₂}以及实体标签L＝{L₁,L₂,...,L_n}嵌套到关系层的依赖关系标签D＝{D₁,D₂,...,D_n}上进行拼接，获得联合向量V＝{D,h,L}；

S32、构建基于双向循环的树结构网络Bi-Tree-LSTM模型；

S33、将联合向量V＝{D,h,Le}输入到基于双向循环的树结构网络Bi-Tree-LSTM模型中进行端到端训练，得到文本序列S＝{S₁,S₂,...,S_n}的三元组结构化信息向量；

S34、对文本序列S＝{S₁,S₂,...,S_n}的三元组结构化信息进行拼接并进行非线性变换得到候选关系D_p；

S35、对候选关系D_p输入到分类器C得到该文本序列S＝{S₁,S₂,...,S_n}的语义关系类别。