CN111475650A

CN111475650A - 一种俄语语义角色标注方法、系统、装置以及存储介质

Info

Publication number: CN111475650A
Application number: CN202010256039.5A
Authority: CN
Inventors: 郑新萍; 贾焰; 李爱平; 黄九鸣; 周斌; 喻承; 刘运璇; 王浩; 黄杨琛; 宋怡晨; 王昌海; 李晨晨; 马锶霞; 王培�; 方俊斌; 魏峰
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2020-07-31
Anticipated expiration: 2040-04-02
Also published as: CN111475650B

Abstract

本发明提供了一种俄语语义角色标注方法、系统、装置以及存储介质，其针对俄语的特点，合理利用谓词与论元之间的联系，可以很好的实现俄语的语义角色标注，提高语义角色标注的精确率，获得较高的标注性能，包括以下步骤：步骤1：对语料进行预处理，提取分类特征，转换为特征向量；步骤2：分别基于不同架构的神经网络构建分类模型，分别将分类特征输入各个分类模型进行训练，得到训练好的分类模型；步骤3：基于投票融合机制，按照少数服从多数的原则，融合训练好的分类模型，得到融合模型；步骤4：将预处理后语料输入融合模型，识别语义角色,并附上预测标签，对得到的语义角色预测结果进行性能评估。

Description

一种俄语语义角色标注方法、系统、装置以及存储介质

技术领域

本发明涉及计算语言学中的自然语言处理领域，具体涉及一种俄语语义角色标注方法、系统、装置以及存储介质。

背景技术

语义角色标注是许多自然语言理解任务(如信息抽取，篇章分析，深度问答)的一个重要中间步骤，是知识图谱构建的一个重要方面，如果语义角色标注问题能够被有效地解决，将对自动问答、机器翻译、自动文摘、信息抽取等任务产生直接而有力的帮助。而且语义角色标注是一个浅层的语义分析技术，其发展必将带动其他深层语义任务的进步。

近年来，深度学习在机器学习领域有了较大的进展，已经被广泛的应用于自然语言处理的很多领域上。然而在于俄语上并未得到很好的发展，由于俄语中长期缺乏合适的语料库，俄语的语义角色标注相关工作也非常少。早期的方法基本依赖于领域专家构建语义规则或者语义字典来进行处理。直到近几年，可用的语料库才开始被发行。人们开始慢慢使用机器学习的方式来处理该任务。由于语料库中提供的数据，标注都非常稀疏，所有很难像其他语言一样直接对整句话进行处理，然后得到一句话中所有的语义角色。我们只能以传统的处理方式，即识别出句子中的论元，然后再对这些论元进行角色标注。当前采用的深度学习方法基本依赖于建筑工程，即通过已有的特征提取工具来对文本进行处理，获取我们想要的特征，然后将这些特征进行组合，输入到一个用于分类的全连接网络中。但是这种方式没有很好的利用神经网络自学习的能力，而仅仅把它当作是一种简单的分类器。本申请旨在提供一种俄语语义角色标注方法，其基于俄语的特点，以句子的谓词为中心，研究句子中各成分与谓词之间的关系，并用语义角色来描述他们之间的关系。

发明内容

针对上述问题，本发明提供了一种俄语语义角色标注方法、系统、装置以及存储介质，其针对俄语的特点，合理利用谓词与论元之间的联系，可以很好的实现俄语的语义角色标注，提高语义角色标注的精确率，获得较高的标注性能。

其技术方案是这样的：一种俄语语义角色标注方法，其特征在于，包括以下步骤：

步骤1：对语料进行预处理，提取分类特征，转换为特征向量；

步骤2：分别基于不同架构的神经网络构建分类模型，分别将分类特征输入各个分类模型进行训练，得到训练好的分类模型；

步骤3：基于投票融合机制，按照少数服从多数的原则，融合训练好的分类模型，得到融合模型；

步骤4：将预处理后语料输入融合模型，识别语义角色,并附上预测标签，对得到的语义角色预测结果进行性能评估。

进一步的，步骤1具体包括以下步骤：

数据集分配：将语料按一定比例分成测试集、训练集、验证集；

数据格式转换：从语料中提取谓语及论元，将论元按照基本特征分类，基本特征包括论元的词性、语法格、是否是动物名词、时态、是否为被动、相对位置、前置词、语法依赖；

数据向量化：利用预训练的Word2vec将论元以及谓语进行向量化表示，使用one-hot表示方法来表示分类特征。

进一步的，在步骤2中，分别基于FNN、BiGRU、Attention构建分类模型，

在基于FNN构建分类模型时，将论元的基本特征输入进行训练，优化模型参数，得到基于FNN的分类模型；

在基于BiGRU构建分类模型时，将论元的上下文输入到模型的BiGRU层，利用BiGRU来提取论元的上下文特征，然后将论元的上下文特征与论元的基本特征相结合，进行模型训练，优化模型参数，得到基于BiGRU的分类模型；

在基于Attention构建分类模型时，提取论元的上下文特征，结合论元的基本特征作为Attention的输入进行训练，优化模型参数，训练得到基于Attention的分类模型。

进一步的，在步骤2中，采用训练集中的分类特征作为输入训练分类模型，在训练分类模型的过程中，通过验证集监控分类模型的训练效果；在步骤4中，将测试集的数据输入融合模型进行语义角色识别。

进一步的，在步骤4中，在对语义角色预测结果进行性能评估时，计算的性能评估指标包括精确率，召回率，macro-F1，micro-F1，根据性能评估结果，判断融合模型是否过拟合或欠拟合，若存在过拟合或欠拟合，则对融合模型进行优化。

进一步的，在步骤4中，若训练集的性能评估指标大大优于测试集，则认为融合模型存在过拟合，采用dropout方法，对于神经网络单元，以随机概率将其从网络中丢弃，或判断输入的分类特征是否为有效特征，若非有效特征，则去除该分类特征；若训练集和测试集的性能评估指标两者均不好，则认为融合模型存在欠拟合，增加融合模型的网络复杂度或者在融合模型中增加输入的分类特征。

一种俄语语义角色标注系统，其特征在于，包括：

数据预处理模块，用于对语料进行预处理，提取分类特征；

分类子模型构建模块，用于基于不同架构的神经网络构建分类模型，分别将分类特征输入各个分类模型进行训练，得到训练好的分类模型；

融合模型构建模块，用于基于投票融合机制，按照少数服从多数的原则，融合训练好的分类模型，得到融合模型；

性能评估模块，用于将语料输入融合模型，识别语义角色,并附上预测标签，对得到的语义角色预测结果进行性能评估。

进一步的，所述数据预处理模块包括：

数据集分配子模块，用于将语料按一定比例分成测试集、训练集、验证集；

数据格式转换子模块，用于从语料中提取谓语及论元，将论元按照基本特征分类，基本特征包括论元的词性、语法格、是否是动物名词、时态、是否为被动、相对位置、前置词、语法依赖；

数据向量化子模块，用于利用预训练的Word2vec将论元以及谓语进行向量化表示，使用one-hot表示方法来表示分类特征；

所述分类子模型构建模块分别基于FNN、BiGRU、Attention构建分类模型，

在基于Attention构建分类模型时，提取论元的上下文特征，结合论元的基本特征作为Attention的输入进行训练，优化模型参数，训练得到基于Attention的分类模型；

所述性能评估模块根据性能评估结果，判断融合模型是否过拟合或欠拟合，若训练集的性能评估指标大大优于测试集，则认为融合模型存在过拟合，采用dropout方法，对于神经网络单元，以随机概率将其从网络中丢弃，或判断输入的分类特征是否为有效特征，若非有效特征，则去除该分类特征；若训练集和测试集的性能评估指标两者均不好，则认为融合模型存在欠拟合，增加融合模型的网络复杂度或者在融合模型中增加输入的分类特征。

一种俄语语义角色标注装置，其特征在于，其包括：包括处理器、存储器以及程序；

所述程序存储在所述存储器中，所述处理器调用存储器存储的程序，以执行上述的俄语语义角色标注方法。

一种计算机可读存储介质，其特征在于，所述计算机可读存储介质被配置成存储程序，所述程序被配置成执行上述的俄语语义角色标注方法。

本发明的俄语语义角色标注方法、系统、装置以及存储介质，分别基于FNN、BiGRU、Attention构建分类模型，对分类模型进行训练，在各个分类模型训练完成后，基于投票融合机制，按照少数服从多数的原则，融合训练好的分类模型，得到融合模型，通过融合模型去进行识别语义角色,并附上预测标签，并对得到的语义角色预测结果进行性能评估，还根据性能评估，分析模型的优势和劣势，然后根据结果做进一步分析，判断模型是否发生过拟合或者欠拟合，若发生过拟合，则需要考虑当前是否存在冗余特征，模型的结构是否过于复杂，模型中的参数是否设置合理，采用dropout方法进行优化；若模型发生欠拟合，考虑模型结构是否太简单，所提取的特征是否不够具有代表性等问题，对应增加融合模型的网络复杂度或者在融合模型中增加输入的分类特征，以此来完善融合模型，如此得到的融合模型在进行俄语语义角色标注时，其针对俄语的特点，合理利用谓词与论元之间的联系，可以很好的实现俄语的语义角色标注，提高语义角色标注的精确率，获得较高的标注性能。

附图说明

图1为本发明的俄语语义角色标注方法的示意图；

图2为本发明的俄语语义角色标注系统的系统框图；

图3为本发明的数据预处理模块的系统框图。

具体实施方式

见图1，本发明的一种俄语语义角色标注方法，包括以下步骤：

具体在本实施例中，步骤1具体包括以下步骤：

数据格式转换：从语料中提取谓语及论元，将论元按照基本特征分类，基本特征包括词性、相对谓语的距离、是否为动物名词、原型、对应的格，数据集以json的格式进行保存；

具体在本实施例中，在步骤2中，分别基于FNN、BiGRU、Attention构建分类模型，采用训练集中的分类特征作为输入训练分类模型，在训练分类模型的过程中，通过验证集监控分类模型的训练效果，

具体在本实施例中，在步骤4中，将测试集的数据输入融合模型进行语义角色识别，在对语义角色预测结果进行性能评估时，计算的性能评估指标包括精确率，召回率，macro-F1，micro-F1，根据性能评估结果，判断融合模型是否过拟合或欠拟合，若训练集的性能评估指标大大优于测试集，则认为融合模型存在过拟合，采用dropout方法，对于神经网络单元，以随机概率将其从网络中丢弃，或判断输入的分类特征是否为有效特征，若非有效特征，则去除该分类特征；若训练集和测试集的性能评估指标两者均不好，则认为融合模型存在欠拟合，增加融合模型的网络复杂度或者在融合模型中增加输入的分类特征。

精确率又被称为查准率，表示的是对某个类别被预测正确的样本数占所有被预测成该类别样本数中的比例；召回率又称为查全率，表示某个类别被预测正确的样本数占该类别样本总数的比例。

对于一个多分类问题，分类的结果一般表示为以下四种情况：第i类的样本被分到了i类，记这一类样本数为TPi；其他类的样本分到了第i类，记为FPi；第i类的样本被分到了其他类，记为FNi；其他类别的样本被正确的分到了对应的类别，记为TNi；第i个类别的精确度记为：

假设现在有N个类别，那么精确率就是所有类别精度的平均值，即：

同样，计算第i个类别的召回率，表示为：

对应的召回率表示为：

最后，macro-F1的计算结果为：

micro-F1的微精确率的表示为：

微精确率的表示为：

对应的micro-F1的计算结果为：

因为俄语中现有的发行的语料库还不足以支撑完全依赖于神经网络来提取论元的特征，本发明的俄语语义角色标注方法还需要加一部分自己提取的特征，这部分的工作主要体现在数据预处理方面，我们需要提取出论元的本身的一些基本特征，包括论元的词形、语法格、是否是动物名词、时态、是否为被动、相对位置、前置词、语法依赖等，这些都是针对俄语这种语言而设置的；

随后分别基于FNN、BiGRU、Attention构建分类模型，对分类模型进行训练，使用BiGRU以及Attention机制的原因是为了提取论元的上下文信息，来挖掘出文本中存在的隐藏信息，使得分类的特征更丰富；

在各个分类模型训练完成后，基于投票融合机制，按照少数服从多数的原则，融合训练好的分类模型，得到融合模型，通过融合模型去进行识别语义角色，并附上预测标签，模型融合就是训练多个基础模型，然后按照一定的策略将他们进行集成，得到一个各个性能相对较好的集成模型，其具备可理解性强，容易实现，效果显著等特点，本发明中运用了模型融合机制来对已有方法进行改进，其借用了Bagging的思想，同时构建多个基础模型，不同的是，本发明并不是从改变训练集的角度出发，而是从模型结构的构建进行考虑，通过构建三个不同结构的子模型来分别对论元进行分类，考虑到本发明要解决的是一个多分类问题，选择投票法，即少数服从多数的原则作为模型的结合策略；

随后，本发明还对得到的语义角色预测结果进行性能评估，还根据性能评估，分析模型的优势和劣势，然后根据结果做进一步分析，判断模型是否发生过拟合或者欠拟合，若发生过拟合，则需要考虑当前是否存在冗余特征，模型的结构是否过于复杂，模型中的参数是否设置合理，采用dropout方法进行优化；若模型发生欠拟合，考虑模型结构是否太简单，所提取的特征是否不够具有代表性等问题，对应增加融合模型的网络复杂度或者在融合模型中增加输入的分类特征，以此来完善融合模型，如此得到的融合模型在进行俄语语义角色标注时，其针对俄语的特点，合理利用谓词与论元之间的联系，可以很好的实现俄语的语义角色标注，提高语义角色标注的精确率，获得较高的标注性能。

见图2，本发明还提供了一种俄语语义角色标注系统，包括：

数据预处理模块1，用于对语料进行预处理，提取分类特征；

分类子模型构建模块2，用于基于不同架构的神经网络构建分类模型，分别将分类特征输入各个分类模型进行训练，得到训练好的分类模型；

融合模型构建模块3，用于基于投票融合机制，按照少数服从多数的原则，融合训练好的分类模型，得到融合模型；

性能评估模块4，用于将语料输入融合模型，识别语义角色,并附上预测标签，对得到的语义角色预测结果进行性能评估。

见图3，数据预处理模块1包括：

数据集分配子模块101，用于将语料按一定比例分成测试集、训练集、验证集；

数据格式转换子模块102，用于从语料中提取谓语及论元，将论元按照基本特征分类，基本特征包括论元的词性、语法格、是否是动物名词、时态、是否为被动、相对位置、前置词、语法依赖；

数据向量化子模块103，用于利用预训练的Word2vec将论元以及谓语进行向量化表示，使用one-hot表示方法来表示分类特征；

分类子模型构建模块分别基于FNN、BiGRU、Attention构建分类模型，

性能评估模块根据性能评估结果，判断融合模型是否过拟合或欠拟合，若训练集的性能评估指标大大优于测试集，则认为融合模型存在过拟合，采用dropout方法，对于神经网络单元，以随机概率将其从网络中丢弃，或判断输入的分类特征是否为有效特征，若非有效特征，则去除该分类特征；若训练集和测试集的性能评估指标两者均不好，则认为融合模型存在欠拟合，增加融合模型的网络复杂度或者在融合模型中增加输入的分类特征。

在本发明的实施例中，还提供了一种俄语语义角色标注装置，其包括：包括处理器、存储器以及程序；

程序存储在存储器中，处理器调用存储器存储的程序，以执行上述的俄语语义角色标注方法。

在上述一种俄语语义角色标注装置的实现中，存储器和处理器之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可以通过一条或者多条通信总线或信号线实现电性连接，如可以通过总线连接。存储器中存储有实现数据访问控制方法的计算机执行指令，包括至少一个可以软件或固件的形式存储于存储器中的软件功能模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理。

存储器可以是，但不限于，随机存取存储器(Random Access Memory，简称：RAM)，只读存储器(Read Only Memory，简称：ROM)，可编程只读存储器(Programmable Read-OnlyMemory，简称：PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，简称：EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，简称：EEPROM)等。其中，存储器用于存储程序，处理器在接收到执行指令后，执行程序。

处理器可以是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称：CPU)、网络处理器(NetworkProcessor，简称：NP)等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的实施例中，还提供了一种计算机可读存储介质，其特征在于，计算机可读存储介质被配置成存储程序，程序被配置成执行上述的俄语语义角色标注方法。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图和或中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图中指定的功能的步骤。

以上对本发明所提供的俄语语义角色标注方法、俄语语义角色标注系统、装俄语语义角色标注置和一种计算机可读存储介质的应用进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种俄语语义角色标注方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种俄语语义角色标注方法，其特征在于，步骤1具体包括以下步骤：

3.根据权利要求1所述的一种俄语语义角色标注方法，其特征在于：在步骤2中，分别基于FNN、BiGRU、Attention构建分类模型，

4.根据权利要求2所述的一种俄语语义角色标注方法，其特征在于：在步骤2中，采用训练集中的分类特征作为输入训练分类模型，在训练分类模型的过程中，通过验证集监控分类模型的训练效果；在步骤4中，将测试集的数据输入融合模型进行语义角色识别。

5.根据权利要求1所述的一种俄语语义角色标注方法，其特征在于：在步骤4中，在对语义角色预测结果进行性能评估时，计算的性能评估指标包括精确率，召回率，macro-F1，micro-F1，根据性能评估结果，判断融合模型是否过拟合或欠拟合，若存在过拟合或欠拟合，则对融合模型进行优化。

6.根据权利要求5所述的一种俄语语义角色标注方法，其特征在于：在步骤4中，若训练集的性能评估指标大大优于测试集，则认为融合模型存在过拟合，采用dropout方法，对于神经网络单元，以随机概率将其从网络中丢弃，或判断输入的分类特征是否为有效特征，若非有效特征，则去除该分类特征；若训练集和测试集的性能评估指标两者均不好，则认为融合模型存在欠拟合，增加融合模型的网络复杂度或者在融合模型中增加输入的分类特征。

7.一种俄语语义角色标注系统，其特征在于，包括：

数据预处理模块，用于对语料进行预处理，提取分类特征；

8.根据权利要求7所述的一种俄语语义角色标注系统，其特征在于：所述数据预处理模块包括：

9.一种俄语语义角色标注装置，其特征在于，其包括：包括处理器、存储器以及程序；

所述程序存储在所述存储器中，所述处理器调用存储器存储的程序，以执行权利要求1所述的俄语语义角色标注方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质被配置成存储程序，所述程序被配置成执行权利要求1所述的俄语语义角色标注方法。