CN113095087A

CN113095087A - 一种基于图卷积神经网络的中文词义消歧方法

Info

Publication number: CN113095087A
Application number: CN202110485038.2A
Authority: CN
Inventors: 刘睿; 仇化平; 黄长帅
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2021-07-09
Anticipated expiration: 2041-04-30
Also published as: CN113095087B

Abstract

本发明涉及一种基于图卷积神经网络(Graph Convolution Network，GCN)的中文词义消歧方法。本发明首先对汉语语料进行预处理。该步骤对训练和测试语料包含歧义词的语句进行分词、词性标注和语义标注处理。以歧义词所在的句子，以及句中所包含的词形、词性和语义作为消歧特征并作为节点来构建词义消歧特征图，使用Word2Vec、Doc2Vec工具和点互信息(PMI)、TF‑IDF方法对节点和边进行嵌入权值。用训练语料训练GCN模型，将模型优化。用优化后的GCN模型，对测试语料进行词义消歧，可得到歧义词汇在各个语义类别下的概率分布。将概率最大值对应的语义类判别为歧义词汇的语义类。本发明具有较好的词义消歧效果，更准确的判断歧义词汇的真实含义。

Description

一种基于图卷积神经网络的中文词义消歧方法

技术领域：

本发明涉及一种基于图卷积神经网络的中文词义消歧方法，该方法可以很好的应用在自然语言处理领域。

背景技术：

词义消歧是自然语言处理领域中的基础性研究课题。在自然语言中，常常存在着一词多义的现象，往往给文本分类、机器翻译、信息检索等方面的应用带来一些困扰。根据上下文特定的语言环境，找出歧义词汇的真实语义，提高词汇表示的准确性，将会给以上应用领域中带来更好的效果。

目前，经常使用一些常见的算法对歧义词汇进行消歧和分类，例如：朴素贝叶斯、K-means、基于关联规则的分类方法和人工神经网络等。但是，这些传统的算法存在着一些缺点，不能充分的提取消歧特征或者仅限于局部消歧特征提取，且分类器分类效果不是很好。近年来，深度学习算法已经广泛的应用到自然语言处理领域，像循环神经网络、卷积神经网络等算法模型，这些深度学习算法可以更好的提取消歧特征。图卷积神经网络(GraphConvolutionNetwork,GCN)模型是最近两年内提出来的深度学习算法，此模型直接在图上进行建模，通过构造词义消歧特征图的形式，可以将消歧特征更好的提取出来，将节点以及其邻域节点的消歧特征进行融合。对于歧义词汇而言，可以很好地应用GCN网络来进行消岐，实现语义的正确分类。

发明内容：

鉴于此，为了解决自然语言处理领域中针对中文里一词多义的现象，本发明公开了一种基于图卷积神经网络的中文词义消歧方法。

为此，本发明提供了如下技术方案：

1.基于图卷积神经网络的中文词义消岐方法，其特征在于，该方法包括以下步骤：

步骤1：对语料中所包含的所有汉语句子进行分词、词性标注和语义类标注，选取歧义词汇所在的句子，以及句子内的词形、词性和语义类作为消岐特征。

步骤2：提取歧义词汇所在的句子，以及句子内的词形、词性和语义类，使用Doc2Vec工具将提取的句子特征进行向量化处理，使用Word2Vec工具将词形、词性和语义类特征进行向量化处理。将处理好的语料分为训练语料和测试语料，其中训练语料占大部分。

步骤3：构建词义消歧特征图，将提取的句子，以及句子内的词形、词性和语义类作为图中的节点。构建词形与词形节点之间的边，词形与句子节点之间的边，词形与词性节点之间的边，词形与语义类节点之间的边。

步骤4：训练过程为：由训练数据构建好的词义消歧特征图输入到GCN模型里面进行训练，得到优化后的GCN模型。

步骤5：测试过程为：由测试数据构建的词义消歧特征图输入到优化后的GCN模型里面进行测试，即语义分类过程。计算歧义词汇在每个语义类别下的概率分布，其中，具有最大概率的语义类即为歧义词汇的语义类。

2.根据权利要求1所述的基于图卷积神经网络的中文词义消岐方法，其特征在于，所述步骤1中，对汉语句子进行分词、词性标注和语义类标注，提取消岐特征，具体步骤为：

步骤1-1利用汉语分词工具对汉语句子进行词汇切分；

步骤1-2利用汉语词性标注工具对已切分好的词汇进行词性标注；

步骤1-3利用汉语语义标注工具对已切分好的词汇进行语义类标注；

利用汉语分词工具、汉语词性标注工具和汉语语义标注工具对语料所包含的所有汉语句子进行词汇切分、词性标注和语义类标注，选取歧义词汇所在的句子，以及句子内的词形、词性和语义类作为消岐特征。

3.根据权利要求1所述的基于图卷积神经网络的中文词义消岐方法，其特征在于，所述步骤2中，以哈尔滨工业大学人工语义标注语料为基础，将消歧特征进行向量化处理，具体步骤为：

步骤2-1提取歧义词汇所在的句子，以及句子内的词形、词性和语义类；

步骤2-2对提取的句子特征使用Doc2Vec工具来进行向量化表示。对提取的词形、词性和语义类特征使用Word2Vec工具分别进行向量化表示。

步骤2-3经过向量化表示后，每个特征对应于200维的特征向量。

选取一小部分处理好的语料作为测试数据，其余的作为训练数据。

4.根据权利要求1所述的基于图卷积神经网络的中文词义消岐方法，其特征在于，所述步骤3中，构建词义消歧特征图，具体步骤为：

步骤3-1将提取的句子，句子内的词形、词性和语义类构建为图中的节点。

步骤3-2对节点进行权值嵌入，使用步骤2中所得到的每个特征的特征向量进行权值嵌入。

步骤3-3建立节点与节点之间边的关系，使用PMI方法计算并嵌入词形与词形节点之间的边的权值，使用TF-IDF方法计算并嵌入词形与句子节点之间的边的权值，使用Word2Vec工具计算并分别嵌入词形与词性、词形与语义类节点之间的边的权值。

图中的节点以及边的关系建立完成，并嵌入了其特征的特征向量。

5.跟据权利要求1所述的基于图卷积神经网络的中文词义消岐方法，其特征在于，所述步骤4中，对GCN模型训练，具体步骤为：

步骤4-1由训练数据构建好的词义消歧特征图输入到初始化的GCN模型中。

步骤4-2经过输入层，接受完整的消岐特征；

步骤4-3经过卷积层，对消歧信息进行过滤，提取更完整的消歧特征，将节点及其邻居节点之间的特征进行融合，模型的卷积公式如下：

其中，ReLU为激活函数，ReLU(x)＝max(0,x)，

是规范化对称邻接矩阵W₀和W₁是卷积层的权重矩阵。

步骤4-4经过卷积层操作之后，进入输出层。利用softmax函数来计算歧义词汇c在每个语义类别S_i(i＝1,2,...,k)下的预测概率，所述的softmax函数如下：

其中，a_i表示softmax函数的输入数据，P(s_i|c)表示歧义词汇c在语义类别s_i下的出现概率(i＝1,2,…,k)。

步骤4-5从P(s₁|c)、P(s₂|c)、...、P(s_n|c)中选取最大概率作为预测概率。

其中，t表示歧义词汇c的预测概率。

步骤4-6其模型的损失函数L定义为所有标记句子的交叉熵损失误差，公式如下：

其中，y_D为具有标签的词义词汇c所在句子索引集，F是输出特征的维数，等同于歧义词汇c的语义类别的数量，Y是标签指示矩阵。通过损失函数、梯度下降来不断优化GCN的模型，得到优化后的GCN模型。

6.根据权利要求1所述的基于图卷积神经网络的中文词义消岐方法，其特征在于，所述步骤5中，对歧义词汇c进行语义分类，具体步骤为：

步骤5-1由测试数据构建好的词义消歧特征图输入到优化好的GCN模型中

步骤5-2经过输入层，接受完整的消岐特征；

步骤5-3经过卷积层，对消歧信息进行过滤，提取更完整的消歧特征，将节点及其邻居节点之间的特征进行融合。

步骤5-4经过输出层，利用softmax函数来计算歧义词汇c在每个语义类别下的概率分布，最后选取最大值对应的语义类别作为歧义词汇c的语义类别。

语义类别s的确定过程如下：

其中，s表示概率最大的语义类别，k表示语义类别数，P(s₁|c),...,P(s_i|c),...,P(s_n|c)表示歧义词汇c在语义类别下的概率分布序列。

有益效果：

1.本发明是一种基于图卷积神经网络的中文词义消岐方法。对汉语句子进行了词汇切分、词性标注和语义类标注。以哈尔滨工业大学人工语义标注语料为基础，使用Word2Vec和Doc2Vec工具以及PMI、TF-IDF方法对消歧特征进行向量化。所提取的消岐特征具有较高的质量。

2.本发明所使用的模型为GCN网络模型，最大的特点是在图上进行操作，可以对节点以及其邻域节点进行特征的融合。通过构建词义消歧特征图，便可以经过GCN网络模型进行训练，可以得到较好的分类效果。

3.本发明所使用的分类器为softmax分类器，其不仅能解决二类分类的数据处理，而且能够解决多分类的数据处理。

4.在训练模型时，采用梯度下降方法对模型的卷积层里的权重矩阵参数进行参数更新。通过计算损失函数结果，可以优化整个GCN网络模型。整个GCN模型对输入数据的消歧准确率也有所提高。

附图说明：

图1为本发明实施方式中的中文词义消岐的流程图；

图2为本发明实施方式中的中文词义消岐特征图；

图3为本发明实施方式中基于图卷积神经网络的中文词义消歧模型的训练过程。

图4为本发明实施方式中基于图卷积神经网络的中文词义消歧模型的测试过程。

具体实施方式：

为了使本发明的实施例中的技术方案能够清楚和完整地描述，以下结合实施例中的附图，对本发明进行进一步的详细说明。

对汉语句子“农村工作坚持以帮助农民致富为本。”中的歧义词汇“本”进行消歧处理为例。

本发明实施例基于图卷积神经网络的中文词义消岐方法的流程图，如图1所示，包括以下步骤。

步骤1消岐特征的提取过程如下：

汉语句子“农村工作坚持以帮助农民致富为本。”

步骤1-1利用汉语分词工具对汉语句子进行词汇切分，分词结果为：农村工作坚持以帮助农民致富为本。

步骤1-2利用汉语词性标注工具对已切分好的词汇进行词性标注；词性标注结果为：农村/n工作/vn坚持/v以/p帮助/v农民/n致富/v为/v本/n。

步骤1-3利用汉语语义标注工具对分词结果中的词汇进行语义类标注，语义类标注结果为：农村/Cb25工作/Ae01坚持/Gb02以/Di02帮助/Hi36农民/Ae07致富/If24为/Ih01本/Ed61。

含有歧义词汇“本”的汉语句子的分词、词性标注和语义类标注结果为：农村/n/Cb25工作/vn/Ae01坚持/v/Gb02以/p/Di02帮助/v/Hi36农民/n/Ae07致富/v/If24为/v/Ih01本/n/Ed61。

步骤2将消歧特征进行向量化处理。

步骤2-1从包含歧义词汇“本”的汉语句子中，提取歧义词汇所在的句子，以及句子内的词形、词性和语义类，分别为：“农村工作坚持以帮助农民致富为本”、“农村/n/Cb25”、“工作/vn/Ae01”、“坚持/v/Gb02”、“以/p/Di02”、“帮助/v/Hi36”、“农民/n/Ae07”、“致富/v/If24”、“为/v/Ih01”和“本/n/Ed61”，每个词汇单元里面包含3个消歧特征，加上句子特征，一共提取28个消歧特征。

步骤2-2根据哈尔滨工业大学人工语义标注语料，对提取的句子特征使用Doc2Vec工具来进行向量化表示。对提取的词形、词性和语义类特征使用Word2Vec工具分别来进行向量化表示。

步骤2-3经过向量化表示后，每个特征对应于200维的特征向量。一共提取了28个消歧特征，其中相同的消歧特征作为一个消歧特征表示，所以一共生成23×200维特征向量矩阵。

步骤3构建词义消歧特征图，为了更好的区分图中的节点和边，使用不同颜色来表示它们，如图2所示。具体为：

步骤3-1将提取歧义词为“本”的句子，句子内的词形、词性和语义类构建为图中的节点。图中的蓝、橙、黄三种颜色分别代表着歧义词“本”的三种不同类别，椭圆代表着节点，线段代表着节点之间的边。其中，字母“D”代表着句子节点，字母“W”代表着词形节点，字母“P”代表着词性节点，字母“S”代表着语义节点。句子-词形的边用黑色线段连接，词形-词形的边用橙色线段连接，词形-词性的边用紫色线段连接，词形-语义的边用绿色线段连接，数字是来区分不同句子或词。

步骤4歧义词汇“本”的语义类有三种，分别为“book”、“capital”和“foundation”。

本发明实施例基于GCN的词义消歧模型的训练过程和基于GCN的词义消歧模型的测试过程，如图3和图4所示。具体为：

步骤4-2经过输入层，接受完整的消岐特征；

步骤4-3经过卷积层，对消歧信息进行过滤，提取更完整的消歧特征，将节点及其邻居节点之间的特征进行融合。

步骤4-4经过卷积层操作之后，进入输出层。利用softmax函数来计算歧义词汇“本”在语义类别“book”、“capital”和“foundation”下的预测概率：

所述的softmax函数计算过程如下：

其中，a_i表示softmax函数的输入数据，P(book|本)表示歧义词汇“本”在语义类别“book”下的出现概率，P(capital|本)表示歧义词汇“本”在语义类别“capital”下的出现概率。P(foundation|本)表示歧义词汇“本”在语义类别“foundation”下的出现概率。

步骤4-5从P(book|本)、P(capital|本)、P(foundation|本)中选取最大概率作为预测概率。

t＝max(P(book|本),P(capital|本),P(foundation|本))

其中，t表示歧义词汇“本”的预测概率，为76.81％。

步骤4-6通过损失函数、梯度下降来不断优化GCN的模型，得到优化后的GCN模型。

步骤5对歧义词汇“本”进行语义分类，即模型测试，具体步骤为：

步骤5-1由测试数据构建好的词义消歧特征图输入到优化好的GCN模型中。

步骤5-2经过输入层，接受完整的消岐特征；

步骤5-4经过输出层，利用softmax函数来计算歧义词汇“本”在每个语义类别下的概率分布，最后选取最大值对应的语义类别作为歧义词汇“本”的语义类别。

歧义词汇“本”的语义类别s的确定过程如下：

其中，s表示歧义词汇“本”所对应的语义类别foundation。P(s|本)表示歧义词汇“本”在每个语义类别下的概率分布。

通过GCN网络模型，对包含歧义词汇“本”的汉语句子“农村工作坚持以帮助农民致富为本。”进行词义消岐，歧义词汇“本”所对应的语义类别为foundation。

本发明实施方式中的基于图卷积神经网络中文词义消岐方法，能够选择丰富且准确的消岐特征，通过构建词义消歧特征图，并采用GCN网络模型来确定歧义词汇的语义类别，具有较高的正确率。

以上所述是结合附图对本发明的实施例进行的详细介绍，本文的具体实施方式只是用于帮助理解本发明的方法。对于本技术领域的普通技术人员，依据本发明的思想，在具体实施方式及应用范围内均可有所变更和修改，故本发明书不应理解为对本发明的限制。

Claims

1.一种基于图卷积神经网络的中文词义消歧方法，主要包括以下步骤：

步骤1：对语料所包含的所有汉语句子进行分词、词性标注和语义类标注，选取歧义词汇所在的句子，以及句子内的词形、词性和语义类作为消岐特征，一共四种消岐特征；

步骤2：提取歧义词汇所在的句子，以及句子内的词形、词性和语义类，使用Doc2Vec工具将提取的句子特征进行向量化处理，使用Word2Vec工具将词形、词性和语义类特征进行向量化处理；选取一小部分处理好的语料作为测试数据，其余的作为训练数据；

步骤3：构建词义消歧特征图，将提取的句子，以及句子内的词形、词性和语义类作为图中的节点；构建词形与词形节点之间的边，词形与句子节点之间的边，词形与词性节点之间的边，词形与语义类节点之间的边；

步骤4：训练过程为：由训练数据构建好的词义消歧特征图输入到GCN模型里面进行训练，得到优化后的GCN模型；

步骤5：测试过程为：由测试数据构建的词义消歧特征图输入到优化后的GCN模型里面进行测试，即语义分类过程；计算歧义词汇在每个语义类别下的概率分布，其中，具有最大概率的语义类即为歧义词汇的语义类。

步骤1-1利用汉语分词工具对汉语句子进行词汇切分；

步骤2-2对提取的句子特征使用Doc2Vec工具来进行向量化表示；对提取的词形、词性和语义类特征使用Word2Vec工具分别进行向量化表示；

步骤2-3经过向量化表示后，每一个特征对应于200维的特征向量；

步骤3-1将提取的句子，句子内的词形、词性和语义类构建为图中的节点；

步骤3-2对节点进行权值嵌入，使用步骤2中所得到的每个特征的特征向量进行权值嵌入；

步骤3-3建立节点与节点之间边的关系，使用PMI方法计算并嵌入词形与词形节点之间的边的权值，使用TF-IDF方法计算并嵌入词形与句子节点之间的边的权值，使用Word2Vec工具计算并分别嵌入词形与词性、词形与语义类节点之间的边的权值；

5.根据权利要求1所述的基于图卷积神经网络的中文词义消岐方法，其特征在于，所述步骤4中，对GCN模型训练，具体步骤为：

步骤4-1由训练数据构建好的词义消歧特征图输入到初始化的GCN模型中；

步骤4-2经过输入层，接受完整的消岐特征；

其中，ReLU为激活函数，ReLU(x)＝max(0,x)，

是规范化对称邻接矩阵W₀和W₁是卷积层的权重矩阵；

步骤4-4经过卷积层操作之后，进入输出层；利用softmax函数来计算歧义词汇c在每个语义类别S_i(i＝1,2,...,k)下的预测概率，所述的softmax函数如下：

其中，a_i表示softmax函数的输入数据，P(s_i|c)表示歧义词汇c在语义类别s_i下的出现概率(i＝1,2,…,k)；

步骤4-5从P(s₁|c)、P(s₂|c)、...、P(s_n|c)中选取最大概率作为预测概率；

其中，t表示歧义词汇c的预测概率；

其中，y_D为具有标签的词义词汇c所在句子索引集，F是输出特征的维数，等同于歧义词汇c的语义类别的数量，Y是标签指示矩阵；通过损失函数、梯度下降来不断优化GCN的模型，得到优化后的GCN模型。

步骤5-1由测试数据构建好的词义消歧特征图输入到优化好的GCN模型中；

步骤5-2经过输入层，接受完整的消岐特征；

步骤5-3经过卷积层，对消歧信息进行过滤，提取更完整的消歧特征，将节点及其邻居节点之间的特征进行融合；

步骤5-4经过输出层，利用softmax函数来计算歧义词汇c在每个语义类别下的概率分布，最后选取最大值对应的语义类别作为歧义词汇c的语义类别；

语义类别s的确定过程如下：