CN110705277A

CN110705277A - 一种基于循环神经网络的中文词义消岐方法

Info

Publication number: CN110705277A
Application number: CN201910921615.0A
Authority: CN
Inventors: 周雪松; 赵凌云; 其他发明人请求不公开姓名
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2020-01-17

Abstract

本发明涉及一种基于循环神经网络(Recurrent Netural Networks，RNN)的中文词义消歧方法。本发明首先对语料进行预处理。该步骤对训练预料和测试预料包含歧义词汇的语句进行分词和特征标注处理。处理好的训练预料用于训练RNN模型，目的是对模型进行优化。利用优化后的RNN模型，对测试预料进行消歧，可得到歧义词汇在各语义类别下的概率分布向量。在这个向量中，最大值对应的语义类即判别为歧义词汇的语义类。本发明具有较好的词义消歧效果，可以对歧义词汇的含义进行更好的判断。

Description

一种基于循环神经网络的中文词义消岐方法

技术领域：

本发明涉及一种基循环神经网络的中文词义消岐方法，该方法可以很好的应用在自然语言处理领域。

背景技术：

中文中包含有很多具有多重含义的词汇。词义消歧的目的，就是根据不同的语境，来确定这些歧义词汇的正确含义。词义消歧问题在自言语言处理领域占据着重要的地位。同时，它也是机器翻译的核心步骤。所以，选择词义消歧分类器十分重要，其性能与词义消歧的效果息息相关。目前，经常使用一些常见的算法对词汇进行消岐和分类，例如：k-means、朴素贝叶斯、基于关联规则的分类方法和人工神经网络等。但是，传统的算法存在着一些缺点和不足。所提取的消岐特征只局限于局部区域，分类器的训练效果不是很好。近年来，深度学习算法已被广泛地应用到自然语言处理领域。循环神经网络(RecurrentNetural Networks，RNN)是当前深度学习算法中的主要模型。将处理好的消岐特征输入到初始化的RNN网络模型之中。在RNN模型中，神经元的权值是共享的。这使得神经元可以共享资源，降低了网络模型的复杂度，防止出现过拟合现象。对于歧义词汇而言，可以很好地应用RNN网络来进行消岐，实现语义的正确分类。

发明内容：

针对中文里一词多义的现象，本发明公开了一种基于循环神经网络中文词义消歧方法。

为此，本发明采用了如下技术方案：

1.基于循环神经网络的中文词义消岐方法，其特征在于，该方法包括以下步骤：

步骤1：首先对语料中的各中文语句进行分词，并标注词性和语义类特征。以歧义词汇为中心，选取其左右各两个词汇单元，将这四个词汇单元的词形、词性和语义类特征作为消歧特征。

步骤2：将处理好的预料分为训练预料和测试预料，其中训练预料占大部分。提取上述四个邻接词汇单元的词形、词性和语义类特征，根据其位置，对其进行二进制转换。

步骤3：训练过程分为前向传播过程和后向反馈过程。训练数据作为RNN模型训练的输入，经过RNN模型的训练，得到优化后的RNN模型。

步骤4：测试过程为前向传播过程，即语义分类过程。在优化后的RNN模型上，输入测试数据，计算歧义词汇在每个语义类别下的概率分布，其中，具有最大概率的语义类即为歧义词汇的语义类。

2.根据权利要求1所述的基于循环神经网络的汉语句子词义消岐方法，其特征在于，所述步骤1中，对汉语句子进行分词、词性标注和语义类标注，提取消岐特征，具体步骤为：

步骤1-1利用汉语分词工具对汉语句子进行词汇切分；

步骤1-2利用汉语词性标注工具对已切分好的词汇进行词性标注；

步骤1-3利用汉语语义标注工具对已切分好的词汇进行语义类标注；

利用汉语分词工具、汉语词性标注工具和汉语语义标注工具对语料所包含的所有汉语句子进行词汇切分、词性标注和语义类标注，选取歧义词汇左右四个邻接词汇单元的词形、词性和语义类作为消岐特征。

3.根据权利要求1所述的基于循环神经网络的汉语句子词义消岐方法，其特征在于，所述步骤2中，以哈尔滨工业大学人工语义标注语料为基础，统计消岐特征的出现频度，具体步骤为：

步骤2-1提取歧义词汇的左右四个邻接词汇单元的词形、词性和语义类；

步骤2-2统计消岐特征的出现频度；

步骤2-3其频度经过二进制转化后，每个消岐特征对应于一组二进制数。

选取一小部分处理好的语料作为测试数据，其余的作为训练数据。

4.根据权利要求1所述的基于循环神经网络的汉语句子词义消岐方法，其特征在于，所述步骤3中，对RNN模型进行训练，具体步骤为：

前向传播过程：

步骤3-1把训练数据输入到初始化的RNN模型中；

步骤3-2经过输入层，接受完整的消岐特征；

步骤3-3经过隐藏层，对消歧信息进行过滤，保留有效信息；

步骤3-4经过隐藏层操作之后，进入输出层。利用softmax函数来计算歧义词汇m在每个语义类别si(i＝1,2,...,n)下的预测概率，所述的softmax函数如下：

其中，a_i表示softmax函数的输入数据，P(s_i|m)表示歧义词汇m在语义类别s_i下的出现概率(i＝1,2,…,n)。

步骤3-7从P(s₁|m)、P(s₂|m)、...、P(s_n|m)中选取最大概率作为预测概率。

其中，y_predictedj表示歧义词汇m的预测概率。

步骤3-8将预测概率y_predicted_j和真实概率y_j进行比较，利用交叉熵损失函数来计算误差loss。

所述误差loss的计算过程如下所示：

其中，y_j表示歧义词汇m属于语义类别s_i的真实概率。

反向传播过程：

根据误差loss反向传播，逐层更新参数，参数更新过程如下：

其中，θ表示参数集，θ'表示更新后的参数集，α为学习率。

不断迭代RNN模型，得到优化后的RNN模型。

5.根据权利要求1所述的基于循环神经网络的汉语句子词义消岐方法，其特征在于，在所述步骤4中，对歧义词汇m进行语义分类，具体过程为：

语义分类过程：

步骤4-1把测试数据输入到优化后的RNN模型之中；

步骤4-2经过输入层，接受完整的消岐特征；

步骤4-3经过隐藏层，选择需要保留的有效信息，抛弃冗余信息，提取最大的消岐特征；

步骤4-4经过输出层，利用softmax函数来计算歧义词汇m在每个语义类别下的概率分布。其中，具有最大概率的语义类别s'即为歧义词汇的语义类别。

所述语义类别s'的确定过程如下：

其中，s'表示概率最大的语义类别，n表示语义类别数，P(s₁|m),...,P(s_i|m),...,P(s_n|m)表示歧义词汇m在语义类别下的概率分布序列。

有益效果：

1.本发明是一种基于循环神经网络的汉语句子词义消岐方法。对汉语句子进行了词汇切分、词性标注和语义类标注。以哈尔滨工业大学人工语义标注语料为基础，统计消岐特征的出现频度。所提取的消岐特征具有较高的质量。

2.本发明所使用的模型为RNN网络模型，最大的特点是局部感知和参数共享，避免梯度弥散问题。只要训练好RNN模型，就可以获得较好的分类效果。

3.本发明使用的分类器为softmax分类器，不仅能解决二类分类的数据处理，而且能够解决多分类的数据处理。

4.在训练模型时，采用随机梯度下降法进行参数更新。通过计算误差，误差通过反向传播沿原路线返回，即从输出层反向经过各中间隐藏层，逐层更新每一层参数，最终回到输出层。不断地进行前向传播和反向传播，以减小误差，更新模型参数，直到RNN训练好为止。随着误差反向传播不断地对参数进行更新，整个RNN模型对输入数据的消岐准确率也有所提高。

附图说明：

图1为本发明实施方式中的汉语句子词义消岐的流程图；

图2为本发明实施方式中基于循环神经网络的词义消歧模型的训练过程。

图3为本发明实施方式中基于循环神经网络的词义消歧模型的测试过程。

具体实施方式：

为了使本发明的实施例中的技术方案能够清楚和完整地描述，以下结合实施例中的附图，对本发明进行进一步的详细说明。

以对汉语句子“中华各族儿女共同创造的优秀传统文化，始终是维系全体中国人的精神纽带和实现和平统一的重要基础。”中的歧义词汇“儿女”进行消岐处理为例。

本发明实施例基于循环神经网络的汉语句子词义消岐方法的流程图，如图1所示，包括以下步骤。

步骤1消岐特征的提取过程如下：

汉语句子：中华各族儿女共同创造的优秀传统文化，始终是维系全体中国人的精神纽带和实现和平统一的重要基础。

步骤1-1利用汉语分词工具对汉语句子进行词汇切分，分词结果为：中华各族儿女共同创造的优秀传统文化始终是维系全体中国人的精神纽带和实现和平统一的重要基础。

步骤1-2利用汉语词性标注工具对分词结果中的词汇进行词性标注，词性标注结果为：中华/nz各族/r儿女/n共同/d创造/v的/u优秀/a传统/n文化/n始终/d是/v维系/v全体/n中国/ns人/n的/u精神/n纽带/n和/c实现/v和平/a统一/n的/u重要/a基础/n。

步骤1-3利用汉语语义标注工具对分词结果中的词汇进行语义类标注，语义类标注结果为：中华/Di02各族/Dn03儿女/Ah14共同/Ka23创造/Hc05的/Kd01优秀/Ed03传统/Di14文化/Dk02始终/Ka11是/Ja01维系/Ie02全体/Eb02中国/Di02人/Aa01的/Kd01精神/Df01纽带/Dd09和/Kc01实现/Ie14和平/Ef01统一/Ie08的/Kd01重要/Ed28基础/Dd12。

含有歧义词汇“儿女”的汉语句子的分词、词性标注和语义类标注结果为：中华/nz/D各族/r/D儿女/n/A共同/d/K创造/v/H的/u/K优秀/a/E传统/n/D文化/n/D始终/d/K是/v/J维系/v/I全体/n/E中国/ns/D人/n/A的/u/K精神/n/D纽带/n/D和/c/K实现/v/I和平/a/E统一/n/I的/u/K重要/a/E基础/n/D。

步骤2统计消岐特征的出现频度。

步骤2-1从包含歧义词汇“儿女”的汉语句子中，提取歧义词汇左右四个邻接词汇单元，分别为“中华/nz/D”、“各族/r/D”、“共同/d/K”和“创造/v/H”，一共提取了12个消岐特征。

步骤2-2根据哈尔滨工业大学人工语义标注语料，统计12个消岐特征的出现频度并转化成二进制数，如下表所示。

步骤3歧义词汇“儿女”的语义类有两种，分别为“children”和“young_man_and_woman”。

本发明实施例基于循环神经网络模型的训练过程和RNN网络模型的测试过程，如图2和图3所示。具体为：

前向传播过程：

步骤3-1将12个消岐特征频度所对应的二进制数作为训练数据输入到初始化的RNN模型之中；

步骤3-2经过输入层，提取更完整的消岐特征；

步骤3-3经过隐藏层，选择需要保留的有效信息，抛弃冗余信息，提取最大的消岐特征；

步骤3-4通过输出层，利用softmax函数来计算歧义词汇“儿女”在语义类别“children”和“young_man_and_woman”下的预测概率；

所述的softmax函数计算过程如下：

其中，a_s表示softmax函数的输入数据，P(children|儿女)表示歧义词汇“儿女”在语义类别“children”下的出现概率，P(young_man_and_woman|儿女)表示歧义词汇“儿女”在语义类别“young_man_and_woman”下的出现概率。

步骤3-6从P(children|儿女)、P(young_man_and_woman|儿女)中选取最大概率作为预测概率。

y_predicted＝max(P(young_man_and_woman|儿女),P(children|儿女))

其中，y_predicted表示歧义词汇“儿女”的预测概率，为89.99％。

步骤3-6将CNN的预测概率y_predicted和真实概率y进行比较，利用交叉熵损失函数来计算误差。

所述的误差计算过程如下：

loss_儿女＝(ylog(y_predicted)+(1-y)log(1-y_predicted))

其中，loss_儿女表示歧义词汇“儿女”的误差。

反向传播过程：

根据误差loss_儿女，将误差反向传播，逐层更新每一层的参数，参数更新过程如下：

其中，θ_儿女表示歧义词汇“儿女”的参数集，θ'_儿女表示更新之后的参数集，a为学习率。

不断迭代RNN模型，得到优化后的RNN模型。

步骤4模型测试，即语义分类过程，具体步骤为：

步骤4-1把测试数据输入到优化后的RNN模型之中；

步骤4-2经过输入层，提取更完整的消岐特征；

步骤4-4通过输出层，利用softmax函数计算歧义词汇“儿女”在每个语义类别下的概率，最大概率所对应的语义类别即为歧义词汇的语义类别。

歧义词汇“儿女”的语义类别s'的确定过程如下：

其中，s'表示歧义词汇“儿女”所对应的语义类别为young_man_and_woman，P(s|儿女)表示歧义词汇“儿女”在每个语义类别下的概率分布。

通过RNN网络模型，对包含歧义词汇“儿女”的汉语句子“中华各族儿女共同创造的优秀传统文化，始终是维系全体中国人的精神纽带和实现和平统一的重要基础。”进行词义消岐，歧义词汇“儿女”所对应的语义类别为young_man_and_woman。

本发明实施方式中的基于循环神经网络的汉语句子词义消岐方法，能够选择精确的消岐特征，并采用RNN网络模型来确定歧义词汇的语义类别，具有较高的正确率。

以上所述是结合附图对本发明的实施例进行的详细介绍，本文的具体实施方式只是用于帮助理解本发明的方法。对于本技术领域的普通技术人员，依据本发明的思想，在具体实施方式及应用范围内均可有所变更和修改，故本发明书不应理解为对本发明的限制。

Claims

1.基于循环神经网络的汉语句子词义消岐方法，其特征在于，该方法包括以下步骤：

步骤1：对语料所包含的所有汉语句子进行分词、词性标注和语义类标注，选取歧义词汇左右四个邻接词汇单元的词形、词性和语义类作为消岐特征。

步骤2：提取歧义词汇左右四个邻接词汇单元的词形、词性和语义类，统计其频度，转换成对应的二进制数。选取一小部分处理好的语料作为测试数据，其余的作为训练数据。

步骤3：训练包括前向传播和反向传播两个过程。训练数据作为RNN模型训练的输入，经过RNN模型的训练，得到优化后的RNN模型。

步骤1-1利用汉语分词工具对汉语句子进行词汇切分；

步骤2-2统计消岐特征的出现频度；

前向传播过程：

步骤3-1把训练数据输入到初始化的RNN模型中；

步骤3-2经过输入层，接受完整的消岐特征；

步骤3-3经过隐藏层，对消歧信息进行过滤，保留有效信息；

步骤3-4经过隐藏层操作之后，进入输出层。利用softmax函数来计算歧义词汇m在每个语义类别s_i(i＝1,2,...,n)下的预测概率，所述的softmax函数如下：

步骤3-5从P(s₁|m)、P(s₂|m)、...、P(s_n|m)中选取最大概率作为预测概率。

其中，y_predictedj表示歧义词汇m的预测概率。

步骤3-6将预测概率y_predicted_j和真实概率y_j进行比较，利用交叉熵损失函数来计算误差loss。

所述误差loss的计算过程如下所示：

其中，y_j表示歧义词汇m属于语义类别s_i的真实概率。

反向传播过程：

根据误差loss反向传播，逐层更新参数，参数更新过程如下：

其中，θ表示参数集，θ'表示更新后的参数集，α为学习率。

不断迭代RNN模型，得到优化后的RNN模型。

语义分类过程：

步骤4-1把测试数据输入到优化后的RNN模型之中；

步骤4-2经过输入层接受完整的消歧信息；

步骤4-3经过隐藏层保留有效信息，抛弃冗余信息，更新隐藏层的状态；

所述语义类别s'的确定过程如下：