CN114186560A

CN114186560A - 一种基于图卷积神经网络融合支持向量机的中文词义消歧方法

Info

Publication number: CN114186560A
Application number: CN202111524927.1A
Authority: CN
Inventors: 刘睿; 仇化平; 赫斌
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2022-03-15

Abstract

本发明涉及一种基于图卷积神经网络(Graph Convolution Network，GCN)融合支持向量机(Support Vector Machine，SVM)的中文词义消歧方法。本发明首先预处理语料。对训练和测试语料的语句进行分词、词性标注和语义标注处理。以歧义词所在的句子以及歧义词两侧词汇单元的词形、词性和语义类作为消歧特征，消歧特征作为节点来构建词义消歧图。使用Word2Vec、Doc2Vec工具、逐点互信息(PMI)、TF‑IDF算法对图中节点和边的权值进行计算。训练语料训练GCN模型，将模型优化。利用优化后的GCN模型计算训练和测试语料的消歧特征，再将训练语料计算后的消歧特征输入SVM分类器中，优化SVM分类器，再对测试语料进行分类，得到歧义词汇在语义类别下分类情况。本发明具有较好的词义消歧效果，准确的判断歧义词汇的真实含义。

Description

一种基于图卷积神经网络融合支持向量机的中文词义消歧方法

技术领域：

本发明涉及一种基于图卷积神经网络融合支持向量机的中文词义消歧方法，该方法可以很好的应用在自然语言处理领域。

背景技术：

谈到自然语言处理，往往涉及到语言中一词多义的现象，它影响着具有篇章理解能力的机器翻译、自动文摘、问答系统、舆情分析、机器写作、信息检索和文本分类等自然语言处理领域应用。为了使以上应用领域有更好的准确性或者获得更加符合人们所预期的结果。要对多种语义的词进行消歧处理，即词义消歧，根据上下文特定的语言环境，找出歧义词汇的真实语义，提高词汇表示的准确性。

在词义消歧技术层面上来说，深度学习神经网络等智能算法的火热，也给词义消歧技术带来不小的发展。配合着自然语言处理领域中的句法分析、语义分析、语法分析等技术，逐步地提高了词义消歧的效果。但是，这些传统的算法存在着一些缺点，不能充分的提取消歧特征或者仅限于局部消歧特征提取，且分类器分类效果不是很好。近年来，深度学习算法已经广泛的应用到自然语言处理领域，像循环神经网络、卷积神经网络等算法模型，这些深度学习算法可以更好的提取消歧特征。图卷积神经网络(GraphConvolutionNetwork,GCN)模型是最近几年提出来的深度学习算法，此模型直接在图上进行建模，通过构造词义消歧图的形式，可以将消歧特征更好的提取出来，将节点以及其邻域节点的消歧特征进行融合。对于歧义词汇而言，可以很好地应用GCN网络来进行词义消歧，而支持向量机(SupportVectorMachine,SVM)则可以更好的实现语义的正确分类。

发明内容：

鉴于此，为了解决自然语言处理领域中针对中文里一词多义的现象，本发明公开了一种基于图卷积神经网络融合支持向量机的中文词义消歧方法。

为此，本发明提供了如下技术方案：

1.基于图卷积神经网络融合支持向量机的中文词义消歧方法，其特征在于，该方法包括以下步骤：

步骤1：对语料中所包含的所有汉语句子进行分词、词性标注和语义类标注，选取歧义词汇所在的句子，以及歧义词左右两侧所有邻接词汇单元的词形、词性和语义类作为消歧特征。

步骤2：提取歧义词汇所在的句子，以及歧义词左右两侧所有邻接词汇单元的词形、词性和语义类，使用Doc2Vec工具将提取的句子特征进行向量化处理，使用Word2Vec工具将词形、词性和语义类特征进行向量化处理。语料数据集选用SemEval-2007：Task#5的训练语料和测试语料。

步骤3：构建词义消歧图，将提取的句子，以及歧义词左右两侧所有邻接词汇单元的词形、词性和语义类作为图中的节点。构建词形与词形节点之间的边，词形与句子节点之间的边，词形与词性节点之间的边，词形与语义类节点之间的边。

步骤4：词义消歧模型训练过程为：由训练语料提取完消歧特征构建好的词义消歧图输入到GCN模型里面进行训练，得到优化后的GCN模型；对于测试语料，提取完消歧特征构建好的词义消歧图输入到优化后的GCN模型；分别计算训练语料消歧特征和测试语料的消歧特征。

步骤5：词义消歧测试分类过程为：计算后的训练语料的消歧特征输入到SVM分类器中训练SVM分类器，得到优化后的SVM分类器；将计算后的测试语料的消歧特征输入到优化后的SVM分类器中进行语义类别分类，使用分类决策函数来对歧义词汇的语义类进行分类。

2.根据权利要求1所述的基于图卷积神经网络融合支持向量机的中文词义消歧方法，其特征在于，所述步骤1中，对汉语句子进行分词、词性标注和语义类标注，提取消歧特征，具体步骤为：

步骤1-1利用汉语分词工具对汉语句子进行词汇切分；

步骤1-2利用汉语词性标注工具对已切分好的词汇进行词性标注；

步骤1-3利用汉语语义标注工具对已切分好的词汇进行语义类标注；

利用汉语分词工具、汉语词性标注工具和汉语语义标注工具对语料所包含的所有汉语句子进行词汇切分、词性标注和语义类标注，选取歧义词汇所在的句子，以及歧义词左右两侧所有邻接词汇单元的词形、词性和语义类作为消歧特征。

3.根据权利要求1所述的基于图卷积神经网络融合支持向量机的中文词义消歧方法，其特征在于，所述步骤2中，对SemEval-2007：Task#5的训练语料和测试语料的消歧特征进行向量化处理，具体步骤为：

步骤2-1提取歧义词汇所在的句子，以及歧义词左右两侧所有邻接词汇单元的词形、词性和语义类；

步骤2-2对提取的句子特征使用Doc2Vec工具来进行向量化表示。对提取的词形、词性和语义类特征使用Word2Vec工具分别进行向量化表示；

步骤2-3经过向量化表示后，每个特征对应于200维的特征向量。

4.根据权利要求1所述的基于图卷积神经网络融合支持向量机的中文词义消歧方法，其特征在于，所述步骤3中，构建词义消歧图，具体步骤为：

步骤3-1将提取的句子，以及歧义词左右两侧所有邻接词汇单元的词形、词性和语义类作为图中的节点；

步骤3-2对节点进行权值嵌入，使用步骤2中所得到的每个特征的特征向量进行权值嵌入。

步骤3-3建立节点与节点之间边的关系，使用PMI方法计算并嵌入词形与词形节点之间的边的权值，使用TF-IDF方法计算并嵌入词形与句子节点之间的边的权值，使用Word2Vec工具计算并分别嵌入词形与词性、词形与语义类节点之间的边的权值；

图中的节点以及边的关系建立完成，并嵌入了其特征的特征向量。

5.跟据权利要求1所述的基于图卷积神经网络融合支持向量机的中文词义消歧方法，其特征在于，所述步骤4中，对词义消歧模型训练，具体步骤为：

步骤4-1由训练语料构建好的词义消歧图输入到初始化的GCN模型中；

步骤4-2经过输入层，接受完整的消歧特征；

步骤4-3经过卷积层，对消歧信息进行过滤，提取更完整的消歧特征，将节点及其邻居节点之间的特征进行融合，模型的卷积公式如下：

其中，ReLU为激活函数，ReLU(x)＝max(0,x)，

是规范化对称邻接矩阵W₀和W₁是卷积层的权重矩阵。

步骤4-4经过卷积层操作之后，进入输出层。利用softmax函数来计算歧义词汇c在每个语义类别S_i(i＝1,2,...,k)下的预测概率，所述的softmax函数如下：

其中，a_i表示softmax函数的输入数据，p(s_i|c)表示歧义词汇c在语义类别s_i下的出现概率(i＝1,2,…,k)。

步骤4-5从p(s₁|c)、p(s₂|c)、...、p(s_n|c)中选取最大概率作为预测概率。

其中，t表示歧义词汇c的预测概率。

步骤4-6其模型的损失函数L定义为所有标记句子的交叉熵损失误差，公式如下：

其中，y_D为具有标签的词义词汇c所在句子索引集，F是输出特征的维数，等同于歧义词汇c的语义类别的数量，Y是标签指示矩阵。通过损失函数、梯度下降来不断优化GCN的模型，得到优化后的GCN模型。

步骤4-7将训练语料构建好的词义消歧图输入到优化后的GCN模型中进行消歧特征计算，将测试语料构建好的词义消歧图输入到优化后的GCN模型中进行消歧特征计算。

6.根据权利要求1所述的基于图卷积神经网络融合支持向量机的中文词义消歧方法，其特征在于，所述步骤5中对词义消歧测试分类，具体步骤为：

步骤5-1将训练语料计算后的消歧特征输入初始化的SVM分类器中；

步骤5-2利用核函数W将消歧特征向量从特征空间向高维空间进行映射，如下面公式所示：

其中，x_i和x_j为两个特征向量，

代表着从特征空间到高维空间的隐藏映射；

步骤5-3使用非线性SVM的高斯径向函数分类器的分类决策函数，其形式如下所示：

其中，

α^*为凸二次优化问题最优解，b^*为无关项，exp(-γ||x₁-x₂||²)为径向基核函数(RBF)，γ＞0为超参数；

步骤5-4经过分类决策函数，可以训练语料的歧义词汇的语义类别分类到不同的超平面中，以完成对歧义词汇的语义分类，通过梯度下降等方式，不断优化SVM分类器；

步骤5-5将测试语料计算后的消歧特征输入到优化后的SVM分类器中，使用分类决策函数对歧义词汇进行语义分类。

有益效果：

1.本发明是一种基于图卷积神经网络融合支持向量机的中文词义消歧方法。对歧义词所在的汉语句子进行了词汇切分、词性标注和语义类标注；以SemEval-2007：Task#5的训练语料和测试语料为基础，使用Word2Vec和Doc2Vec工具对消歧特征进行向量化，并且构建词义消歧图，使用PMI、TF-IDF方法计算边上的权值；所提取的消歧特征具有较高的质量。

2.本发明所使用的模型为GCN网络模型，最大的特点是在图上进行操作，可以对节点以及其邻域节点进行特征的融合。通过构建词义消歧图，便可以经过GCN网络模型进行训练，可以提取更好的消歧特征。

3.本发明在词义消歧测试分类中使用SVM分类器，其不仅能解决二类分类的数据处理，而且能够解决多分类的数据处理，且有效的处理高维数据，分类效果更好。

4.在训练模型时，采用梯度下降方法对GCN模型的卷积层里的权重矩阵参数进行参数更新。通过计算损失函数结果，可以优化整个GCN网络模型。整个GCN模型对输入数据计算的消歧特征更好，消歧准确率也有所提高。

附图说明：

图1为本发明实施方式中的中文词义消歧的框架；

图2为本发明实施方式中的构建中文词义消歧图过程；

图3为本发明实施方式中基于图卷积神经网络融合支持向量机的中文词义消歧模型训练过程。

图4为本发明实施方式中基于图卷积神经网络融合支持向量机的中文词义消歧测试分类过程。

具体实施方式：

为了使本发明的实施例中的技术方案能够清楚和完整地描述，以下结合实施例中的附图，对本发明进行进一步的详细说明。

对汉语句子“这样可去除蔬菜表面的残留农药。”中的歧义词汇“表面”进行消歧处理为例。

本发明实施例基于图卷积神经网络融合支持向量机的中文词义消歧方法的框架，如图1所示，包括以下步骤。

步骤1消歧特征的提取过程如下：

汉语句子“这样可去除蔬菜表面的残留农药。”

步骤1-1利用汉语分词工具对汉语句子进行词汇切分，分词结果为：这样可去除蔬菜表面的残留农药。

步骤1-2利用汉语词性标注工具对已切分好的词汇进行词性标注；词性标注结果为：这样/r可/v去除/v蔬菜/n表面/n的/u残留/vn农药/n。

步骤1-3利用汉语语义标注工具对分词结果中的词汇进行语义类标注，语义类标注结果为：这样/r/Ka34可/v/Ka01去除/v/Hg18蔬菜/n/Bh06表面

/n/Bc02的/u/Bo29残留/vn/Jd01农药/n/Br13。

含有歧义词汇“表面”的汉语句子的分词、词性标注和语义类标注结果为：这样/r/Ka34可/v/Ka01去除/v/Hg18蔬菜/n/Bh06表面/n/Bc02的/u/Bo29残留/vn/Jd01农药/n/Br13。

步骤2将消歧特征进行向量化处理。

步骤2-1从包含歧义词汇“表面”的汉语句子中，提取歧义词汇所在的句子，以及歧义词左右两侧所有邻接词汇单元的词形、词性和语义类。分别为：“这样可去除蔬菜的残留农药”、“这样/r/Ka34”、“可/v/Ka01”、“去除/v/Hg18”、“蔬菜/n/Bh06”、“的/u/Bo29”、“残留/vn/Jd01”和“农药/n/Br13”，每个词汇单元里面包含3个消歧特征，加上句子特征，一共提取22个消歧特征。

步骤2-2对提取的句子特征使用Doc2Vec工具来进行向量化表示，对提取的词形、词性和语义类特征使用Word2Vec工具分别进行向量化表示。

步骤2-3经过向量化表示后，每个特征对应于200维的特征向量。一共提取了22个消歧特征，其中相同的消歧特征作为一个消歧特征表示，所以一共生成20×200维特征向量矩阵。

步骤3构建词义消歧图，过程如图2所示。具体为：

步骤3-1将提取歧义词为“表面”的句子，以及歧义词左右两侧所有邻接词汇单元的词形、词性和语义类作为图中的节点。椭圆代表着节点，线段代表着节点之间的边。其中，字母“D”代表着句子节点，字母“W”代表着词形节点，字母“P”代表着词性节点，字母“S”代表着语义节点。其中句子与词形节点有边，词形与词形节点有边，词形与词性节点有边，词形与语义节点有边，数字是来区分不同句子或词。

步骤3-2对节点进行权值嵌入，使用步骤2中所得到的每个特征的特征向量进行权值嵌入，图中R(W)代表着词形节点权值的嵌入，与此类推，R(D)，R(P)，R(S)分别代表着句子，词性，语义类节点权值的嵌入。

步骤3-3建立节点与节点之间边的关系，使用PMI方法计算并嵌入词形与词形节点之间的边的权值，使用TF-IDF方法计算并嵌入词形与句子节点之间的边的权值，使用Word2Vec工具计算并分别嵌入词形与词性、词形与语义类节点之间的边的权值。

步骤4歧义词汇“表面”的语义类有两种，分别为“appearance”和“face”。

本发明实施例基于GCN融合SVM的词义消歧模型训练过程和基于GCN融合SVM的词义消歧测试分类过程，如图3和图4所示。具体为：

步骤4-1由训练语料构建好的词义消歧图输入到初始化的GCN模型中。

步骤4-2经过输入层，接受完整的消歧特征；

步骤4-3经过卷积层，对消歧信息进行过滤，提取更完整的消歧特征，将节点及其邻居节点之间的特征进行融合。

步骤4-4经过卷积层操作之后，进入输出层。利用softmax函数来计算歧义词汇“表面”在语义类别“appearance”和“face”下的预测概率：

所述的softmax函数计算过程如下：

其中，a_i表示softmax函数的输入数据，p(appearance|表面)表示歧义词汇“表面”在语义类别“appearance”下的出现概率，p(face|表面)表示歧义词汇“表面”在语义类别“face”下的出现概率。

步骤4-5从p(appearance|表面)、p(face|表面)中选取最大概率作为预测概率。

t＝max(p(appearance|表面),p(face|表面))

其中，t表示歧义词汇“表面”的预测概率，为82.17％。

步骤4-6通过损失函数、梯度下降来不断优化GCN的模型，得到优化后的GCN模型。

步骤5对歧义词汇“表面”进行语义分类，即词义消歧测试分类过程，具体步骤为：

步骤5-2利用核函数W将消歧特征向量从特征空间向高维空间进行映射；

步骤5-3使用非线性SVM的高斯径向函数分类器的分类决策函数；

经过计算超平面，对于包含歧义词汇“表面”的汉语句子“这样可去除蔬菜表面的残留农药。”进行词义消歧，歧义词汇“表面”所对应的语义类别为face。

本发明实施方式中的基于图卷积神经网络融合支持向量机的中文词义消歧方法，能够选择丰富且准确的消歧特征，通过构建词义消歧图，并采用GCN网络模型来确定进一步提取消歧特征，使用SVM分类器进行语义分类，具有较高的正确率。

以上所述是结合附图对本发明的实施例进行的详细介绍，本文的具体实施方式只是用于帮助理解本发明的方法。对于本技术领域的普通技术人员，依据本发明的思想，在具体实施方式及应用范围内均可有所变更和修改，故本发明书不应理解为对本发明的限制。

Claims

1.一种基于图卷积神经网络融合支持向量机的中文词义消歧方法，主要包括以下步骤：

步骤1：对语料中所包含的所有汉语句子进行分词、词性标注和语义类标注，选取歧义词汇所在的句子，以及歧义词左右两侧所有邻接词汇单元的词形、词性和语义类作为消歧特征，一共四种消歧特征；

步骤2：提取歧义词汇所在的句子，以及歧义词左右两侧所有邻接词汇单元的词形、词性和语义类，使用Doc2Vec工具将提取的句子特征进行向量化处理，使用Word2Vec工具将词形、词性和语义类特征进行向量化处理；语料数据集选用SemEval-2007：Task#5的训练语料和测试语料；

步骤3：构建词义消歧图，将提取的句子，以及歧义词左右两侧所有邻接词汇单元的词形、词性和语义类作为图中的节点；构建词形与词形节点之间的边，词形与句子节点之间的边，词形与词性节点之间的边，词形与语义类节点之间的边；

步骤4：词义消歧模型训练过程为：由训练语料提取完消歧特征构建好的词义消歧图输入到GCN模型里面进行训练，得到优化后的GCN模型；对于测试语料，提取完消歧特征构建好的词义消歧图输入到优化后的GCN模型；分别计算训练语料消歧特征和测试语料的消歧特征；

2.根据权利要求1所述的基于图卷积神经网络融合支持向量机的中文词义消歧方法，其特征在于，所述步骤1中，对汉语句子进行分词、词性标注和语义类标注，选取消歧特征，具体步骤为：

步骤1-1利用汉语分词工具对汉语句子进行词汇切分；

步骤2-2对提取的句子特征使用Doc2Vec工具来进行向量化表示，对提取的词形、词性和语义类特征使用Word2Vec工具分别进行向量化表示；

步骤2-3经过向量化表示后，每一个特征对应于200维的特征向量。

步骤3-2对节点进行权值嵌入，使用步骤2中所得到的每个特征的特征向量进行权值嵌入；

5.根据权利要求1所述的基于图卷积神经网络融合支持向量机的中文词义消歧方法，其特征在于，所述步骤4中，对词义消歧模型训练，具体步骤为：

步骤4-2经过输入层，接受完整的消歧特征；

其中，ReLU为激活函数，ReLU(x)＝max(0,x)，

是规范化对称邻接矩阵W₀和W₁是卷积层的权重矩阵；

步骤4-4经过卷积层操作之后，进入输出层，利用softmax函数来计算歧义词汇c在每个语义类别S_i(i＝1,2,...,k)下的预测概率，所述的softmax函数如下：

其中，a_i表示softmax函数的输入数据，p(s_i|c)表示歧义词汇c在语义类别s_i下的出现概率(i＝1,2,…,k)；

步骤4-5从p(s₁|c)、p(s₂|c)、...、p(s_n|c)中选取最大概率作为预测概率；

其中，t表示歧义词汇c的预测概率；

其中，y_D为具有标签的词义词汇c所在句子索引集，F是输出特征的维数，等同于歧义词汇c的语义类别的数量，Y是标签指示矩阵，通过损失函数、梯度下降来不断优化GCN的模型，得到优化后的GCN模型；

6.根据权利要求1所述的基于图卷积神经网络融合支持向量机的中文词义消歧方法，其特征在于，所述步骤5中，对词义消歧测试分类，具体步骤为：

其中，x_i和x_j为两个特征向量，

代表着从特征空间到高维空间的隐藏映射；

其中，