CN111475650A - 一种俄语语义角色标注方法、系统、装置以及存储介质 - Google Patents

一种俄语语义角色标注方法、系统、装置以及存储介质 Download PDF

Info

Publication number
CN111475650A
CN111475650A CN202010256039.5A CN202010256039A CN111475650A CN 111475650 A CN111475650 A CN 111475650A CN 202010256039 A CN202010256039 A CN 202010256039A CN 111475650 A CN111475650 A CN 111475650A
Authority
CN
China
Prior art keywords
classification
model
arguments
russian
semantic role
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010256039.5A
Other languages
English (en)
Other versions
CN111475650B (zh
Inventor
郑新萍
贾焰
李爱平
黄九鸣
周斌
喻承
刘运璇
王浩
黄杨琛
宋怡晨
王昌海
李晨晨
马锶霞
王培�
方俊斌
魏峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202010256039.5A priority Critical patent/CN111475650B/zh
Publication of CN111475650A publication Critical patent/CN111475650A/zh
Application granted granted Critical
Publication of CN111475650B publication Critical patent/CN111475650B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种俄语语义角色标注方法、系统、装置以及存储介质,其针对俄语的特点,合理利用谓词与论元之间的联系,可以很好的实现俄语的语义角色标注,提高语义角色标注的精确率,获得较高的标注性能,包括以下步骤:步骤1:对语料进行预处理,提取分类特征,转换为特征向量;步骤2:分别基于不同架构的神经网络构建分类模型,分别将分类特征输入各个分类模型进行训练,得到训练好的分类模型;步骤3:基于投票融合机制,按照少数服从多数的原则,融合训练好的分类模型,得到融合模型;步骤4:将预处理后语料输入融合模型,识别语义角色,并附上预测标签,对得到的语义角色预测结果进行性能评估。

Description

一种俄语语义角色标注方法、系统、装置以及存储介质
技术领域
本发明涉及计算语言学中的自然语言处理领域,具体涉及一种俄语语义角色标注方法、系统、装置以及存储介质。
背景技术
语义角色标注是许多自然语言理解任务(如信息抽取,篇章分析,深度问答)的一个重要中间步骤,是知识图谱构建的一个重要方面,如果语义角色标注问题能够被有效地解决,将对自动问答、机器翻译、自动文摘、信息抽取等任务产生直接而有力的帮助。而且语义角色标注是一个浅层的语义分析技术,其发展必将带动其他深层语义任务的进步。
近年来,深度学习在机器学习领域有了较大的进展,已经被广泛的应用于自然语言处理的很多领域上。然而在于俄语上并未得到很好的发展,由于俄语中长期缺乏合适的语料库,俄语的语义角色标注相关工作也非常少。早期的方法基本依赖于领域专家构建语义规则或者语义字典来进行处理。直到近几年,可用的语料库才开始被发行。人们开始慢慢使用机器学习的方式来处理该任务。由于语料库中提供的数据,标注都非常稀疏,所有很难像其他语言一样直接对整句话进行处理,然后得到一句话中所有的语义角色。我们只能以传统的处理方式,即识别出句子中的论元,然后再对这些论元进行角色标注。当前采用的深度学习方法基本依赖于建筑工程,即通过已有的特征提取工具来对文本进行处理,获取我们想要的特征,然后将这些特征进行组合,输入到一个用于分类的全连接网络中。但是这种方式没有很好的利用神经网络自学习的能力,而仅仅把它当作是一种简单的分类器。本申请旨在提供一种俄语语义角色标注方法,其基于俄语的特点,以句子的谓词为中心,研究句子中各成分与谓词之间的关系,并用语义角色来描述他们之间的关系。
发明内容
针对上述问题,本发明提供了一种俄语语义角色标注方法、系统、装置以及存储介质,其针对俄语的特点,合理利用谓词与论元之间的联系,可以很好的实现俄语的语义角色标注,提高语义角色标注的精确率,获得较高的标注性能。
其技术方案是这样的:一种俄语语义角色标注方法,其特征在于,包括以下步骤:
步骤1:对语料进行预处理,提取分类特征,转换为特征向量;
步骤2:分别基于不同架构的神经网络构建分类模型,分别将分类特征输入各个分类模型进行训练,得到训练好的分类模型;
步骤3:基于投票融合机制,按照少数服从多数的原则,融合训练好的分类模型,得到融合模型;
步骤4:将预处理后语料输入融合模型,识别语义角色,并附上预测标签,对得到的语义角色预测结果进行性能评估。
进一步的,步骤1具体包括以下步骤:
数据集分配:将语料按一定比例分成测试集、训练集、验证集;
数据格式转换:从语料中提取谓语及论元,将论元按照基本特征分类,基本特征包括论元的词性、语法格、是否是动物名词、时态、是否为被动、相对位置、前置词、语法依赖;
数据向量化:利用预训练的Word2vec将论元以及谓语进行向量化表示,使用one-hot表示方法来表示分类特征。
进一步的,在步骤2中,分别基于FNN、BiGRU、Attention构建分类模型,
在基于FNN构建分类模型时,将论元的基本特征输入进行训练,优化模型参数,得到基于FNN的分类模型;
在基于BiGRU构建分类模型时,将论元的上下文输入到模型的BiGRU层,利用BiGRU来提取论元的上下文特征,然后将论元的上下文特征与论元的基本特征相结合,进行模型训练,优化模型参数,得到基于BiGRU的分类模型;
在基于Attention构建分类模型时,提取论元的上下文特征,结合论元的基本特征作为Attention的输入进行训练,优化模型参数,训练得到基于Attention的分类模型。
进一步的,在步骤2中,采用训练集中的分类特征作为输入训练分类模型,在训练分类模型的过程中,通过验证集监控分类模型的训练效果;在步骤4中,将测试集的数据输入融合模型进行语义角色识别。
进一步的,在步骤4中,在对语义角色预测结果进行性能评估时,计算的性能评估指标包括精确率,召回率,macro-F1,micro-F1,根据性能评估结果,判断融合模型是否过拟合或欠拟合,若存在过拟合或欠拟合,则对融合模型进行优化。
进一步的,在步骤4中,若训练集的性能评估指标大大优于测试集,则认为融合模型存在过拟合,采用dropout方法,对于神经网络单元,以随机概率将其从网络中丢弃,或判断输入的分类特征是否为有效特征,若非有效特征,则去除该分类特征;若训练集和测试集的性能评估指标两者均不好,则认为融合模型存在欠拟合,增加融合模型的网络复杂度或者在融合模型中增加输入的分类特征。
一种俄语语义角色标注系统,其特征在于,包括:
数据预处理模块,用于对语料进行预处理,提取分类特征;
分类子模型构建模块,用于基于不同架构的神经网络构建分类模型,分别将分类特征输入各个分类模型进行训练,得到训练好的分类模型;
融合模型构建模块,用于基于投票融合机制,按照少数服从多数的原则,融合训练好的分类模型,得到融合模型;
性能评估模块,用于将语料输入融合模型,识别语义角色,并附上预测标签,对得到的语义角色预测结果进行性能评估。
进一步的,所述数据预处理模块包括:
数据集分配子模块,用于将语料按一定比例分成测试集、训练集、验证集;
数据格式转换子模块,用于从语料中提取谓语及论元,将论元按照基本特征分类,基本特征包括论元的词性、语法格、是否是动物名词、时态、是否为被动、相对位置、前置词、语法依赖;
数据向量化子模块,用于利用预训练的Word2vec将论元以及谓语进行向量化表示,使用one-hot表示方法来表示分类特征;
所述分类子模型构建模块分别基于FNN、BiGRU、Attention构建分类模型,
在基于FNN构建分类模型时,将论元的基本特征输入进行训练,优化模型参数,得到基于FNN的分类模型;
在基于BiGRU构建分类模型时,将论元的上下文输入到模型的BiGRU层,利用BiGRU来提取论元的上下文特征,然后将论元的上下文特征与论元的基本特征相结合,进行模型训练,优化模型参数,得到基于BiGRU的分类模型;
在基于Attention构建分类模型时,提取论元的上下文特征,结合论元的基本特征作为Attention的输入进行训练,优化模型参数,训练得到基于Attention的分类模型;
所述性能评估模块根据性能评估结果,判断融合模型是否过拟合或欠拟合,若训练集的性能评估指标大大优于测试集,则认为融合模型存在过拟合,采用dropout方法,对于神经网络单元,以随机概率将其从网络中丢弃,或判断输入的分类特征是否为有效特征,若非有效特征,则去除该分类特征;若训练集和测试集的性能评估指标两者均不好,则认为融合模型存在欠拟合,增加融合模型的网络复杂度或者在融合模型中增加输入的分类特征。
一种俄语语义角色标注装置,其特征在于,其包括:包括处理器、存储器以及程序;
所述程序存储在所述存储器中,所述处理器调用存储器存储的程序,以执行上述的俄语语义角色标注方法。
一种计算机可读存储介质,其特征在于,所述计算机可读存储介质被配置成存储程序,所述程序被配置成执行上述的俄语语义角色标注方法。
本发明的俄语语义角色标注方法、系统、装置以及存储介质,分别基于FNN、BiGRU、Attention构建分类模型,对分类模型进行训练,在各个分类模型训练完成后,基于投票融合机制,按照少数服从多数的原则,融合训练好的分类模型,得到融合模型,通过融合模型去进行识别语义角色,并附上预测标签,并对得到的语义角色预测结果进行性能评估,还根据性能评估,分析模型的优势和劣势,然后根据结果做进一步分析,判断模型是否发生过拟合或者欠拟合,若发生过拟合,则需要考虑当前是否存在冗余特征,模型的结构是否过于复杂,模型中的参数是否设置合理,采用dropout方法进行优化;若模型发生欠拟合,考虑模型结构是否太简单,所提取的特征是否不够具有代表性等问题,对应增加融合模型的网络复杂度或者在融合模型中增加输入的分类特征,以此来完善融合模型,如此得到的融合模型在进行俄语语义角色标注时,其针对俄语的特点,合理利用谓词与论元之间的联系,可以很好的实现俄语的语义角色标注,提高语义角色标注的精确率,获得较高的标注性能。
附图说明
图1为本发明的俄语语义角色标注方法的示意图;
图2为本发明的俄语语义角色标注系统的系统框图;
图3为本发明的数据预处理模块的系统框图。
具体实施方式
见图1,本发明的一种俄语语义角色标注方法,包括以下步骤:
步骤1:对语料进行预处理,提取分类特征,转换为特征向量;
步骤2:分别基于不同架构的神经网络构建分类模型,分别将分类特征输入各个分类模型进行训练,得到训练好的分类模型;
步骤3:基于投票融合机制,按照少数服从多数的原则,融合训练好的分类模型,得到融合模型;
步骤4:将预处理后语料输入融合模型,识别语义角色,并附上预测标签,对得到的语义角色预测结果进行性能评估。
具体在本实施例中,步骤1具体包括以下步骤:
数据集分配:将语料按一定比例分成测试集、训练集、验证集;
数据格式转换:从语料中提取谓语及论元,将论元按照基本特征分类,基本特征包括词性、相对谓语的距离、是否为动物名词、原型、对应的格,数据集以json的格式进行保存;
数据向量化:利用预训练的Word2vec将论元以及谓语进行向量化表示,使用one-hot表示方法来表示分类特征。
具体在本实施例中,在步骤2中,分别基于FNN、BiGRU、Attention构建分类模型,采用训练集中的分类特征作为输入训练分类模型,在训练分类模型的过程中,通过验证集监控分类模型的训练效果,
在基于FNN构建分类模型时,将论元的基本特征输入进行训练,优化模型参数,得到基于FNN的分类模型;
在基于BiGRU构建分类模型时,将论元的上下文输入到模型的BiGRU层,利用BiGRU来提取论元的上下文特征,然后将论元的上下文特征与论元的基本特征相结合,进行模型训练,优化模型参数,得到基于BiGRU的分类模型;
在基于Attention构建分类模型时,提取论元的上下文特征,结合论元的基本特征作为Attention的输入进行训练,优化模型参数,训练得到基于Attention的分类模型。
具体在本实施例中,在步骤4中,将测试集的数据输入融合模型进行语义角色识别,在对语义角色预测结果进行性能评估时,计算的性能评估指标包括精确率,召回率,macro-F1,micro-F1,根据性能评估结果,判断融合模型是否过拟合或欠拟合,若训练集的性能评估指标大大优于测试集,则认为融合模型存在过拟合,采用dropout方法,对于神经网络单元,以随机概率将其从网络中丢弃,或判断输入的分类特征是否为有效特征,若非有效特征,则去除该分类特征;若训练集和测试集的性能评估指标两者均不好,则认为融合模型存在欠拟合,增加融合模型的网络复杂度或者在融合模型中增加输入的分类特征。
精确率又被称为查准率,表示的是对某个类别被预测正确的样本数占所有被预测成该类别样本数中的比例;召回率又称为查全率,表示某个类别被预测正确的样本数占该类别样本总数的比例。
对于一个多分类问题,分类的结果一般表示为以下四种情况:第i类的样本被分到了i类,记这一类样本数为TPi;其他类的样本分到了第i类,记为FPi;第i类的样本被分到了其他类,记为FNi;其他类别的样本被正确的分到了对应的类别,记为TNi;第i个类别的精确度记为:
Figure BDA0002437358480000061
假设现在有N个类别,那么精确率就是所有类别精度的平均值,即:
Figure BDA0002437358480000062
同样,计算第i个类别的召回率,表示为:
Figure BDA0002437358480000063
对应的召回率表示为:
Figure BDA0002437358480000064
最后,macro-F1的计算结果为:
Figure BDA0002437358480000065
micro-F1的微精确率的表示为:
Figure BDA0002437358480000066
微精确率的表示为:
Figure BDA0002437358480000067
对应的micro-F1的计算结果为:
Figure BDA0002437358480000068
因为俄语中现有的发行的语料库还不足以支撑完全依赖于神经网络来提取论元的特征,本发明的俄语语义角色标注方法还需要加一部分自己提取的特征,这部分的工作主要体现在数据预处理方面,我们需要提取出论元的本身的一些基本特征,包括论元的词形、语法格、是否是动物名词、时态、是否为被动、相对位置、前置词、语法依赖等,这些都是针对俄语这种语言而设置的;
随后分别基于FNN、BiGRU、Attention构建分类模型,对分类模型进行训练,使用BiGRU以及Attention机制的原因是为了提取论元的上下文信息,来挖掘出文本中存在的隐藏信息,使得分类的特征更丰富;
在各个分类模型训练完成后,基于投票融合机制,按照少数服从多数的原则,融合训练好的分类模型,得到融合模型,通过融合模型去进行识别语义角色,并附上预测标签,模型融合就是训练多个基础模型,然后按照一定的策略将他们进行集成,得到一个各个性能相对较好的集成模型,其具备可理解性强,容易实现,效果显著等特点,本发明中运用了模型融合机制来对已有方法进行改进,其借用了Bagging的思想,同时构建多个基础模型,不同的是,本发明并不是从改变训练集的角度出发,而是从模型结构的构建进行考虑,通过构建三个不同结构的子模型来分别对论元进行分类,考虑到本发明要解决的是一个多分类问题,选择投票法,即少数服从多数的原则作为模型的结合策略;
随后,本发明还对得到的语义角色预测结果进行性能评估,还根据性能评估,分析模型的优势和劣势,然后根据结果做进一步分析,判断模型是否发生过拟合或者欠拟合,若发生过拟合,则需要考虑当前是否存在冗余特征,模型的结构是否过于复杂,模型中的参数是否设置合理,采用dropout方法进行优化;若模型发生欠拟合,考虑模型结构是否太简单,所提取的特征是否不够具有代表性等问题,对应增加融合模型的网络复杂度或者在融合模型中增加输入的分类特征,以此来完善融合模型,如此得到的融合模型在进行俄语语义角色标注时,其针对俄语的特点,合理利用谓词与论元之间的联系,可以很好的实现俄语的语义角色标注,提高语义角色标注的精确率,获得较高的标注性能。
见图2,本发明还提供了一种俄语语义角色标注系统,包括:
数据预处理模块1,用于对语料进行预处理,提取分类特征;
分类子模型构建模块2,用于基于不同架构的神经网络构建分类模型,分别将分类特征输入各个分类模型进行训练,得到训练好的分类模型;
融合模型构建模块3,用于基于投票融合机制,按照少数服从多数的原则,融合训练好的分类模型,得到融合模型;
性能评估模块4,用于将语料输入融合模型,识别语义角色,并附上预测标签,对得到的语义角色预测结果进行性能评估。
见图3,数据预处理模块1包括:
数据集分配子模块101,用于将语料按一定比例分成测试集、训练集、验证集;
数据格式转换子模块102,用于从语料中提取谓语及论元,将论元按照基本特征分类,基本特征包括论元的词性、语法格、是否是动物名词、时态、是否为被动、相对位置、前置词、语法依赖;
数据向量化子模块103,用于利用预训练的Word2vec将论元以及谓语进行向量化表示,使用one-hot表示方法来表示分类特征;
分类子模型构建模块分别基于FNN、BiGRU、Attention构建分类模型,
在基于FNN构建分类模型时,将论元的基本特征输入进行训练,优化模型参数,得到基于FNN的分类模型;
在基于BiGRU构建分类模型时,将论元的上下文输入到模型的BiGRU层,利用BiGRU来提取论元的上下文特征,然后将论元的上下文特征与论元的基本特征相结合,进行模型训练,优化模型参数,得到基于BiGRU的分类模型;
在基于Attention构建分类模型时,提取论元的上下文特征,结合论元的基本特征作为Attention的输入进行训练,优化模型参数,训练得到基于Attention的分类模型;
性能评估模块根据性能评估结果,判断融合模型是否过拟合或欠拟合,若训练集的性能评估指标大大优于测试集,则认为融合模型存在过拟合,采用dropout方法,对于神经网络单元,以随机概率将其从网络中丢弃,或判断输入的分类特征是否为有效特征,若非有效特征,则去除该分类特征;若训练集和测试集的性能评估指标两者均不好,则认为融合模型存在欠拟合,增加融合模型的网络复杂度或者在融合模型中增加输入的分类特征。
在本发明的实施例中,还提供了一种俄语语义角色标注装置,其包括:包括处理器、存储器以及程序;
程序存储在存储器中,处理器调用存储器存储的程序,以执行上述的俄语语义角色标注方法。
在上述一种俄语语义角色标注装置的实现中,存储器和处理器之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可以通过一条或者多条通信总线或信号线实现电性连接,如可以通过总线连接。存储器中存储有实现数据访问控制方法的计算机执行指令,包括至少一个可以软件或固件的形式存储于存储器中的软件功能模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理。
存储器可以是,但不限于,随机存取存储器(Random Access Memory,简称:RAM),只读存储器(Read Only Memory,简称:ROM),可编程只读存储器(Programmable Read-OnlyMemory,简称:PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,简称:EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,简称:EEPROM)等。其中,存储器用于存储程序,处理器在接收到执行指令后,执行程序。
处理器可以是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称:CPU)、网络处理器(NetworkProcessor,简称:NP)等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的实施例中,还提供了一种计算机可读存储介质,其特征在于,计算机可读存储介质被配置成存储程序,程序被配置成执行上述的俄语语义角色标注方法。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图和或中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图中指定的功能的步骤。
以上对本发明所提供的俄语语义角色标注方法、俄语语义角色标注系统、装俄语语义角色标注置和一种计算机可读存储介质的应用进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种俄语语义角色标注方法,其特征在于,包括以下步骤:
步骤1:对语料进行预处理,提取分类特征,转换为特征向量;
步骤2:分别基于不同架构的神经网络构建分类模型,分别将分类特征输入各个分类模型进行训练,得到训练好的分类模型;
步骤3:基于投票融合机制,按照少数服从多数的原则,融合训练好的分类模型,得到融合模型;
步骤4:将预处理后语料输入融合模型,识别语义角色,并附上预测标签,对得到的语义角色预测结果进行性能评估。
2.根据权利要求1所述的一种俄语语义角色标注方法,其特征在于,步骤1具体包括以下步骤:
数据集分配:将语料按一定比例分成测试集、训练集、验证集;
数据格式转换:从语料中提取谓语及论元,将论元按照基本特征分类,基本特征包括论元的词性、语法格、是否是动物名词、时态、是否为被动、相对位置、前置词、语法依赖;
数据向量化:利用预训练的Word2vec将论元以及谓语进行向量化表示,使用one-hot表示方法来表示分类特征。
3.根据权利要求1所述的一种俄语语义角色标注方法,其特征在于:在步骤2中,分别基于FNN、BiGRU、Attention构建分类模型,
在基于FNN构建分类模型时,将论元的基本特征输入进行训练,优化模型参数,得到基于FNN的分类模型;
在基于BiGRU构建分类模型时,将论元的上下文输入到模型的BiGRU层,利用BiGRU来提取论元的上下文特征,然后将论元的上下文特征与论元的基本特征相结合,进行模型训练,优化模型参数,得到基于BiGRU的分类模型;
在基于Attention构建分类模型时,提取论元的上下文特征,结合论元的基本特征作为Attention的输入进行训练,优化模型参数,训练得到基于Attention的分类模型。
4.根据权利要求2所述的一种俄语语义角色标注方法,其特征在于:在步骤2中,采用训练集中的分类特征作为输入训练分类模型,在训练分类模型的过程中,通过验证集监控分类模型的训练效果;在步骤4中,将测试集的数据输入融合模型进行语义角色识别。
5.根据权利要求1所述的一种俄语语义角色标注方法,其特征在于:在步骤4中,在对语义角色预测结果进行性能评估时,计算的性能评估指标包括精确率,召回率,macro-F1,micro-F1,根据性能评估结果,判断融合模型是否过拟合或欠拟合,若存在过拟合或欠拟合,则对融合模型进行优化。
6.根据权利要求5所述的一种俄语语义角色标注方法,其特征在于:在步骤4中,若训练集的性能评估指标大大优于测试集,则认为融合模型存在过拟合,采用dropout方法,对于神经网络单元,以随机概率将其从网络中丢弃,或判断输入的分类特征是否为有效特征,若非有效特征,则去除该分类特征;若训练集和测试集的性能评估指标两者均不好,则认为融合模型存在欠拟合,增加融合模型的网络复杂度或者在融合模型中增加输入的分类特征。
7.一种俄语语义角色标注系统,其特征在于,包括:
数据预处理模块,用于对语料进行预处理,提取分类特征;
分类子模型构建模块,用于基于不同架构的神经网络构建分类模型,分别将分类特征输入各个分类模型进行训练,得到训练好的分类模型;
融合模型构建模块,用于基于投票融合机制,按照少数服从多数的原则,融合训练好的分类模型,得到融合模型;
性能评估模块,用于将语料输入融合模型,识别语义角色,并附上预测标签,对得到的语义角色预测结果进行性能评估。
8.根据权利要求7所述的一种俄语语义角色标注系统,其特征在于:所述数据预处理模块包括:
数据集分配子模块,用于将语料按一定比例分成测试集、训练集、验证集;
数据格式转换子模块,用于从语料中提取谓语及论元,将论元按照基本特征分类,基本特征包括论元的词性、语法格、是否是动物名词、时态、是否为被动、相对位置、前置词、语法依赖;
数据向量化子模块,用于利用预训练的Word2vec将论元以及谓语进行向量化表示,使用one-hot表示方法来表示分类特征;
所述分类子模型构建模块分别基于FNN、BiGRU、Attention构建分类模型,
在基于FNN构建分类模型时,将论元的基本特征输入进行训练,优化模型参数,得到基于FNN的分类模型;
在基于BiGRU构建分类模型时,将论元的上下文输入到模型的BiGRU层,利用BiGRU来提取论元的上下文特征,然后将论元的上下文特征与论元的基本特征相结合,进行模型训练,优化模型参数,得到基于BiGRU的分类模型;
在基于Attention构建分类模型时,提取论元的上下文特征,结合论元的基本特征作为Attention的输入进行训练,优化模型参数,训练得到基于Attention的分类模型;
所述性能评估模块根据性能评估结果,判断融合模型是否过拟合或欠拟合,若训练集的性能评估指标大大优于测试集,则认为融合模型存在过拟合,采用dropout方法,对于神经网络单元,以随机概率将其从网络中丢弃,或判断输入的分类特征是否为有效特征,若非有效特征,则去除该分类特征;若训练集和测试集的性能评估指标两者均不好,则认为融合模型存在欠拟合,增加融合模型的网络复杂度或者在融合模型中增加输入的分类特征。
9.一种俄语语义角色标注装置,其特征在于,其包括:包括处理器、存储器以及程序;
所述程序存储在所述存储器中,所述处理器调用存储器存储的程序,以执行权利要求1所述的俄语语义角色标注方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质被配置成存储程序,所述程序被配置成执行权利要求1所述的俄语语义角色标注方法。
CN202010256039.5A 2020-04-02 2020-04-02 一种俄语语义角色标注方法、系统、装置以及存储介质 Active CN111475650B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010256039.5A CN111475650B (zh) 2020-04-02 2020-04-02 一种俄语语义角色标注方法、系统、装置以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010256039.5A CN111475650B (zh) 2020-04-02 2020-04-02 一种俄语语义角色标注方法、系统、装置以及存储介质

Publications (2)

Publication Number Publication Date
CN111475650A true CN111475650A (zh) 2020-07-31
CN111475650B CN111475650B (zh) 2023-04-07

Family

ID=71749655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010256039.5A Active CN111475650B (zh) 2020-04-02 2020-04-02 一种俄语语义角色标注方法、系统、装置以及存储介质

Country Status (1)

Country Link
CN (1) CN111475650B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270198A (zh) * 2020-10-27 2021-01-26 北京百度网讯科技有限公司 角色确定方法、装置、电子设备及存储介质
CN112395873A (zh) * 2020-10-15 2021-02-23 北京百度网讯科技有限公司 对白角色标注模型的生成方法、装置及电子设备
CN115631344A (zh) * 2022-10-06 2023-01-20 中国人民解放军国防科技大学 一种基于特征自适应聚合的目标检测方法
CN116226678A (zh) * 2023-05-10 2023-06-06 腾讯科技(深圳)有限公司 模型处理方法、装置、设备及存储介质
CN116468048A (zh) * 2023-04-25 2023-07-21 重庆邮电大学 一种基于大数据知识图谱的互联网电商投诉智能处理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080319735A1 (en) * 2007-06-22 2008-12-25 International Business Machines Corporation Systems and methods for automatic semantic role labeling of high morphological text for natural language processing applications
CN104462066A (zh) * 2014-12-24 2015-03-25 北京百度网讯科技有限公司 语义角色标注方法及装置
CN110110086A (zh) * 2019-05-13 2019-08-09 湖南星汉数智科技有限公司 一种中文语义角色标注方法、装置、计算机装置及计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080319735A1 (en) * 2007-06-22 2008-12-25 International Business Machines Corporation Systems and methods for automatic semantic role labeling of high morphological text for natural language processing applications
CN104462066A (zh) * 2014-12-24 2015-03-25 北京百度网讯科技有限公司 语义角色标注方法及装置
CN110110086A (zh) * 2019-05-13 2019-08-09 湖南星汉数智科技有限公司 一种中文语义角色标注方法、装置、计算机装置及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XINPING ZHENG等: "Semantic Role Labeling For Russian Language Based on Ensemble Model", 《2019 IEEE 8TH JOINT INTERNATIONAL INFORMATION TECHNOLOGY AND ARTIFICIAL INTELLIGENCE CONFERENCE (ITAIC 2019)》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395873A (zh) * 2020-10-15 2021-02-23 北京百度网讯科技有限公司 对白角色标注模型的生成方法、装置及电子设备
CN112395873B (zh) * 2020-10-15 2022-02-01 北京百度网讯科技有限公司 对白角色标注模型的生成方法、装置及电子设备
CN112270198A (zh) * 2020-10-27 2021-01-26 北京百度网讯科技有限公司 角色确定方法、装置、电子设备及存储介质
CN115631344A (zh) * 2022-10-06 2023-01-20 中国人民解放军国防科技大学 一种基于特征自适应聚合的目标检测方法
CN116468048A (zh) * 2023-04-25 2023-07-21 重庆邮电大学 一种基于大数据知识图谱的互联网电商投诉智能处理方法
CN116468048B (zh) * 2023-04-25 2024-02-13 深圳市智霊荟萃科技发展有限公司 一种基于大数据知识图谱的互联网电商投诉智能处理方法
CN116226678A (zh) * 2023-05-10 2023-06-06 腾讯科技(深圳)有限公司 模型处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111475650B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN111475650B (zh) 一种俄语语义角色标注方法、系统、装置以及存储介质
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
Al-Hroob et al. The use of artificial neural networks for extracting actions and actors from requirements document
US20230069935A1 (en) Dialog system answering method based on sentence paraphrase recognition
CN110309511B (zh) 基于共享表示的多任务语言分析系统及方法
CN109614620B (zh) 一种基于HowNet的图模型词义消歧方法和系统
CN113157859B (zh) 一种基于上位概念信息的事件检测方法
CN114818717B (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN115357719B (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN110414004A (zh) 一种核心信息提取的方法和系统
CN116304748B (zh) 一种文本相似度计算方法、系统、设备及介质
CN113919366A (zh) 一种面向电力变压器知识问答的语义匹配方法和装置
CN115080750B (zh) 基于融合提示序列的弱监督文本分类方法、系统和装置
CN113282711A (zh) 一种车联网文本匹配方法、装置、电子设备及存储介质
CN115545021A (zh) 一种基于深度学习的临床术语识别方法与装置
CN114360504A (zh) 音频处理方法、装置、设备、程序产品及存储介质
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN113239694B (zh) 一种基于论元短语的论元角色识别的方法
CN114742016A (zh) 一种基于多粒度实体异构图的篇章级事件抽取方法及装置
CN113361252B (zh) 基于多模态特征和情感词典的文本抑郁倾向检测系统
CN114492460A (zh) 基于衍生提示学习的事件因果关系抽取方法
CN110866390A (zh) 中文语法错误的识别方法、装置、计算机设备和存储介质
Liu et al. A structured span selector
CN116562291A (zh) 一种基于边界检测的中文嵌套命名实体识别方法
KR102455747B1 (ko) 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 시스템 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant