CN114611463B - 一种面向依存分析的众包标注方法及装置 - Google Patents

一种面向依存分析的众包标注方法及装置 Download PDF

Info

Publication number
CN114611463B
CN114611463B CN202210500613.6A CN202210500613A CN114611463B CN 114611463 B CN114611463 B CN 114611463B CN 202210500613 A CN202210500613 A CN 202210500613A CN 114611463 B CN114611463 B CN 114611463B
Authority
CN
China
Prior art keywords
labeled
sentence
dependency
obtaining
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210500613.6A
Other languages
English (en)
Other versions
CN114611463A (zh
Inventor
张梅山
张帆
孙越恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202210500613.6A priority Critical patent/CN114611463B/zh
Publication of CN114611463A publication Critical patent/CN114611463A/zh
Application granted granted Critical
Publication of CN114611463B publication Critical patent/CN114611463B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种面向依存分析的众包标注方法及装置,涉及自然语言处理技术领域。包括:获取待标注的句子;将待标注的句子输入到构建好的众包标注模型,得到待标注的句子的多棵句法树;选择多棵句法树中的最优解,作为待标注的句子的标注结果。本发明能够解决当前难以快速构建出大规模依存句法树库的问题。提出了一种面向依存分析的众包标注平台,将标注问题转变成选择问题,大大降低了标注难度。

Description

一种面向依存分析的众包标注方法及装置
技术领域
本发明涉及自然语言处理技术领域,特别是指一种面向依存分析的众包标注方法及装置。
背景技术
依存句法分析是自然语言处理中一个重要的任务,其目标是刻画自然语言句子的句法和语义结构。具体来说,它将给定的输入句子表示成一棵依存句法树,从而分析句子内部词语之间的修饰或搭配关系。近年来,随着深度学习的快速发展,神经网络模型变得越来越复杂,依存分析的准确率也有了显著提高,但由此带来的问题是模型对于高质量训练数据的需求愈加旺盛。对于依存句法分析任务而言,大多数依存句法黄金标准语料库都是由少数语言学专家标注构建,这一过程费时费力,因此目前现有的语料库都比较小。
受到众包工作的启发,使用大量非专家标注人员构建依存句法树库是一种可行的方法。但相较于专家标注,这种标注方法标注质量相对较低,并且对于标注人员来说难度较大。因此,需要研究方法降低对标注人员的难度,有效提升标注效率,快速构建大规模依存句法树库。
现有众包标注平台需要先标注人员进行语言学培训,然后让他们为每一个句子直接标注句法树。由于标注过程需要大量的知识,因此对于标注人员来说难度较大,标注效率也比较低。
发明内容
本发明针对如何降低对标注人员的难度,有效提升标注效率,快速构建大规模依存句法树库的问题,提出了本发明。
为解决上述技术问题,本发明提供如下技术方案:
一方面,本发明提供了一种面向依存分析的众包标注方法,该方法由电子设备实现,该方法包括:
S1、获取待标注的句子。
S2、将待标注的句子输入到构建好的众包标注模型,得到待标注的句子的多棵句法树。
S3、选择多棵句法树中的最优解,作为待标注的句子的标注结果。
可选地,众包标注模型包括依存句法分析模型以及解码模块。
S2中的将待标注的句子输入到构建好的众包标注模型,得到待标注的句子的多棵句法树包括:
S21、将待标注的句子输入到依存句法分析模型,得到待标注的句子的依存分析结果。
S22、将依存分析结果输入到解码模块,得到待标注的句子的多棵句法树。
可选地,S21中的将待标注的句子输入到依存句法分析模型,得到待标注的句子的依存分析结果包括:
S211、获取待标注的句子
Figure 604044DEST_PATH_IMAGE001
的嵌入表示
Figure 44034DEST_PATH_IMAGE002
S212、获取嵌入表示的隐藏层向量
Figure 174932DEST_PATH_IMAGE003
S213、获取隐藏层向量的低维表示向量;其中,低维表示向量包括
Figure 346019DEST_PATH_IMAGE004
作为修饰词时的低维表示向量
Figure 892145DEST_PATH_IMAGE005
Figure 749374DEST_PATH_IMAGE006
作为核心词时的低维表示向量
Figure 351256DEST_PATH_IMAGE007
S214、计算低维表示向量的依存关系的得分;其中,得分包括弧得分和依存关系标签得分。
可选地,S211中的获取待标注的句子
Figure 310989DEST_PATH_IMAGE001
的嵌入表示
Figure 540982DEST_PATH_IMAGE002
包括:
通过查找表获取待标注的句子
Figure 303533DEST_PATH_IMAGE008
中的每个单词
Figure 484722DEST_PATH_IMAGE006
的嵌入表示
Figure 732033DEST_PATH_IMAGE002
可选地,S212中的获取嵌入表示的隐藏层向量
Figure 458943DEST_PATH_IMAGE003
包括:
通过多层双向长短期记忆网络,获得嵌入表示
Figure 500717DEST_PATH_IMAGE002
的隐藏层向量
Figure 706220DEST_PATH_IMAGE003
可选地,S213中的获取隐藏层向量的低维表示向量包括:
将隐藏层向量作为输入,分别使用两个多层感知机获得隐藏层向量的低维表示向量。
可选地,S214中的计算低维表示向量的依存关系的得分包括:
使用双仿射注意力机制计算低维表示向量的依存关系的得分。
可选地,S22中的将依存分析结果输入到解码模块,得到待标注的句子的多棵句法树包括:
将依存分析结果输入到解码模块进行
Figure 117741DEST_PATH_IMAGE009
次最优
Figure 56747DEST_PATH_IMAGE010
解码,得到待标注的句子的
Figure 299116DEST_PATH_IMAGE009
棵句法树。
可选地,S3中的选择多棵句法树中的最优解,作为待标注的句子的标注结果包括:
获取标注人员选择的多棵句法树中的最优解,作为待标注的句子的标注结果。
另一方面,本发明提供了一种面向依存分析的众包标注装置,该装置应用于实现面向依存分析的众包标注方法,该装置包括:
获取模块,用于获取待标注的句子。
输入模块,用于将待标注的句子输入到构建好的众包标注模型,得到待标注的句子的多棵句法树。
输出模块,用于选择多棵句法树中的最优解,作为待标注的句子的标注结果。
可选地,众包标注模型包括依存句法分析模型以及解码模块。
可选地,输入模块,进一步用于:
S21、将待标注的句子输入到依存句法分析模型,得到待标注的句子的依存分析结果。
S22、将依存分析结果输入到解码模块,得到待标注的句子的多棵句法树。
可选地,输入模块,进一步用于:
S211、获取待标注的句子
Figure 831729DEST_PATH_IMAGE008
的嵌入表示
Figure 922307DEST_PATH_IMAGE002
S212、获取嵌入表示的隐藏层向量
Figure 981398DEST_PATH_IMAGE003
S213、获取隐藏层向量的低维表示向量;其中,低维表示向量包括
Figure 513443DEST_PATH_IMAGE004
作为修饰词时的低维表示向量
Figure 893871DEST_PATH_IMAGE005
Figure 427621DEST_PATH_IMAGE006
作为核心词时的低维表示向量
Figure 839754DEST_PATH_IMAGE007
S214、计算低维表示向量的依存关系的得分;其中,得分包括弧得分和依存关系标签得分。
可选地,输入模块,进一步用于:
通过查找表获取待标注的句子
Figure 394232DEST_PATH_IMAGE008
中的每个单词
Figure 527535DEST_PATH_IMAGE006
的嵌入表示
Figure 353059DEST_PATH_IMAGE002
可选地,输入模块,进一步用于:
通过多层双向长短期记忆网络,获得嵌入表示
Figure 121164DEST_PATH_IMAGE002
的隐藏层向量
Figure 754532DEST_PATH_IMAGE003
可选地,输入模块,进一步用于:
将隐藏层向量作为输入,分别使用两个多层感知机获得隐藏层向量的低维表示向量。
可选地,输入模块,进一步用于:
使用双仿射注意力机制计算低维表示向量的依存关系的得分。
可选地,输入模块,进一步用于:
将依存分析结果输入到解码模块进行
Figure 608088DEST_PATH_IMAGE009
次最优
Figure 106809DEST_PATH_IMAGE010
解码,得到待标注的句子的
Figure 621098DEST_PATH_IMAGE009
棵句法树。
可选地,输出模块,进一步用于:
获取标注人员选择的多棵句法树中的最优解,作为待标注的句子的标注结果。
一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述面向依存分析的众包标注方法。
一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述面向依存分析的众包标注方法。
本发明实施例提供的技术方案带来的有益效果至少包括:
上述方案中,解决了当前难以快速构建出大规模依存句法树库的问题。现有的众包技术需要标注人员为每一个句子直接标注句法树,这对于标注人员来说难度较大,标注效率比较低。提出了一种面向依存分析的众包标注平台,将标注问题转变成选择问题,这样可以大大降低标注难度,有效提升标注效率,方便快速构建大规模依存句法树库。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的面向依存分析的众包标注方法流程示意图;
图2是本发明实施例提供的训练和标注过程示意图;
图3是本发明实施例提供的面向依存分析的众包标注装置框图;
图4是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
如图1所示,本发明实施例提供了一种面向依存分析的众包标注方法,该方法可以由电子设备实现。如图1所示的面向依存分析的众包标注方法流程图,该方法的处理流程可以包括如下的步骤:
S1、获取待标注的句子。
S2、将待标注的句子输入到构建好的众包标注模型,得到待标注的句子的多棵句法树。
可选地,众包标注模型包括依存句法分析模型以及解码模块。
一种可行的实施方式中,本申请首先使用小规模的金标语料库训练一个依存句法解析器。依存句法解析器的基本模型可以采用现有技术中的Biaffine Parser解析器。
S2中的将待标注的句子输入到构建好的众包标注模型,得到待标注的句子的多棵句法树包括:
S21、将待标注的句子输入到依存句法分析模型,得到待标注的句子的依存分析结果。
可选地,S21中的将待标注的句子输入到依存句法分析模型,得到待标注的句子的依存分析结果包括:
S211、获取待标注的句子
Figure 517379DEST_PATH_IMAGE001
的嵌入表示
Figure 905502DEST_PATH_IMAGE002
可选地,S211中的获取待标注的句子
Figure 319166DEST_PATH_IMAGE001
的嵌入表示
Figure 563327DEST_PATH_IMAGE002
包括:
通过查找表获取待标注的句子
Figure 722520DEST_PATH_IMAGE001
中的每个单词
Figure 645608DEST_PATH_IMAGE006
的嵌入表示
Figure 987596DEST_PATH_IMAGE002
一种可行的实施方式中,给定待标注的句子
Figure 89194DEST_PATH_IMAGE011
,模型通过LUT(Look-upTable,查找表)
Figure 218955DEST_PATH_IMAGE012
找到待标注的句子中每个单词
Figure 737661DEST_PATH_IMAGE006
的嵌入表示
Figure 850718DEST_PATH_IMAGE002
,如下式(1)所示。
Figure 194105DEST_PATH_IMAGE013
其中
Figure 868669DEST_PATH_IMAGE014
表示单词的词性标签,即模型利用了单词嵌入和通用POS(Part OfSpeech,词性标签)。
S212、获取嵌入表示的隐藏层向量
Figure 164085DEST_PATH_IMAGE003
可选地,S212中的获取嵌入表示的隐藏层向量
Figure 457663DEST_PATH_IMAGE003
包括:
通过多层双向长短期记忆网络,获得嵌入表示
Figure 530923DEST_PATH_IMAGE002
的隐藏层向量
Figure 376388DEST_PATH_IMAGE003
一种可行的实施方式中,通过在每个单词的嵌入表示
Figure 164959DEST_PATH_IMAGE002
上应用LSTM(LongShort-Term Memory,多层双向长短期记忆网络),分别获得其隐藏层向量
Figure 747382DEST_PATH_IMAGE003
S213、获取隐藏层向量的低维表示向量;其中,低维表示向量包括
Figure 173684DEST_PATH_IMAGE015
作为修饰词时的低维表示向量
Figure 694445DEST_PATH_IMAGE005
Figure 347143DEST_PATH_IMAGE015
作为核心词时的低维表示向量
Figure 608622DEST_PATH_IMAGE016
可选地,S213中的获取隐藏层向量的低维表示向量包括:
将隐藏层向量作为输入,分别使用两个多层感知机获得隐藏层向量的低维表示向量。
一种可行的实施方式中,MLP(Multi-Layer perceptron,多层感知机)层将隐藏层向量
Figure 155010DEST_PATH_IMAGE003
作为输入,分别使用两个MLP获得低维表示
Figure 496605DEST_PATH_IMAGE005
Figure 403644DEST_PATH_IMAGE007
,如下式(2)、(3)所示:
Figure 967349DEST_PATH_IMAGE017
其中
Figure 884357DEST_PATH_IMAGE018
Figure 868624DEST_PATH_IMAGE019
作为核心词时的表示向量,
Figure 620549DEST_PATH_IMAGE020
Figure 361846DEST_PATH_IMAGE015
作为修饰词时的表示向量,
Figure 148405DEST_PATH_IMAGE021
为隐藏层向量,
Figure 178941DEST_PATH_IMAGE022
用于计算
Figure 781610DEST_PATH_IMAGE023
作为修饰词的表示向量的多层感知机,
Figure 687118DEST_PATH_IMAGE024
用于计算
Figure 564069DEST_PATH_IMAGE023
作为核心词的表示向量的多层感知机。
S214、计算低维表示向量的依存关系的得分;其中,得分包括弧得分和依存关系标签得分。
可选地,S214中的计算低维表示向量的依存关系的得分包括:
使用双仿射注意力机制计算低维表示向量的依存关系的得分。
一种可行的实施方式中,Biaffine层使用双仿射注意力机制计算所有依存关系的得分。依存关系的得分分为两部分,弧得分和依存关系标签得分。其中,由
Figure 404987DEST_PATH_IMAGE025
充当核心词、
Figure 98880DEST_PATH_IMAGE026
充当修饰词的依存弧的得分如下式(4)所示:
Figure 542499DEST_PATH_IMAGE027
其中,矩阵
Figure 664170DEST_PATH_IMAGE028
是biaffine参数。
依存关系标签得分的计算方法,如下式(5)所示:
Figure 27719DEST_PATH_IMAGE029
其中,
Figure 975952DEST_PATH_IMAGE030
表示句子中的位置,
Figure 334515DEST_PATH_IMAGE031
为其短语标签;矩阵
Figure 684593DEST_PATH_IMAGE032
Figure 490482DEST_PATH_IMAGE033
均为模型参数。
S22、将依存分析结果输入到解码模块,得到待标注的句子的多棵句法树。
可选地,S22中的将依存分析结果输入到解码模块,得到待标注的句子的多棵句法树包括:
将依存分析结果输入到解码模块进行
Figure 286531DEST_PATH_IMAGE009
次最优
Figure 71953DEST_PATH_IMAGE010
解码,得到待标注的句子的
Figure 780933DEST_PATH_IMAGE009
棵句法树。
一种可行的实施方式中,使用训练好的解析器对每个需要标注的句子进行
Figure 134554DEST_PATH_IMAGE010
解码,得到
Figure 27686DEST_PATH_IMAGE009
棵句法树。
S3、选择多棵句法树中的最优解,作为待标注的句子的标注结果。
可选地,S3中的选择多棵句法树中的最优解,作为待标注的句子的标注结果包括:
获取标注人员选择的多棵句法树中的最优解,作为待标注的句子的标注结果。
一种可行的实施方式中,整体流程如图2所示,让标注人员从
Figure 882378DEST_PATH_IMAGE009
个结果中选择最优的作为标注结果,可以将标注问题转变成选择问题。
本发明实施例中,解决了当前难以快速构建出大规模依存句法树库的问题。现有的众包技术需要标注人员为每一个句子直接标注句法树,这对于标注人员来说难度较大,标注效率比较低。提出了一种面向依存分析的众包标注平台,将标注问题转变成选择问题,这样可以大大降低标注难度,有效提升标注效率,方便快速构建大规模依存句法树库。
如图3所示,本发明实施例提供了一种面向依存分析的众包标注装置300,该装置300应用于实现面向依存分析的众包标注方法,该装置300包括:
获取模块310,用于获取待标注的句子。
输入模块320,用于将待标注的句子输入到构建好的众包标注模型,得到待标注的句子的多棵句法树。
输出模块330,用于选择多棵句法树中的最优解,作为待标注的句子的标注结果。
可选地,众包标注模型包括依存句法分析模型以及解码模块。
可选地,输入模块320,进一步用于:
S21、将待标注的句子输入到依存句法分析模型,得到待标注的句子的依存分析结果。
S22、将依存分析结果输入到解码模块,得到待标注的句子的多棵句法树。
可选地,输入模块320,进一步用于:
S211、获取待标注的句子
Figure 440005DEST_PATH_IMAGE001
的嵌入表示
Figure 715260DEST_PATH_IMAGE002
S212、获取嵌入表示的隐藏层向量
Figure 859802DEST_PATH_IMAGE003
S213、获取隐藏层向量的低维表示向量;其中,低维表示向量包括
Figure 768719DEST_PATH_IMAGE006
作为修饰词时的低维表示向量
Figure 823263DEST_PATH_IMAGE005
Figure 879206DEST_PATH_IMAGE006
作为核心词时的低维表示向量
Figure 511045DEST_PATH_IMAGE034
S214、计算低维表示向量的依存关系的得分;其中,得分包括弧得分和依存关系标签得分。
可选地,输入模块320,进一步用于:
通过查找表获取待标注的句子
Figure 330709DEST_PATH_IMAGE001
中的每个单词
Figure 600278DEST_PATH_IMAGE006
的嵌入表示
Figure 591237DEST_PATH_IMAGE002
可选地,输入模块320,进一步用于:
通过多层双向长短期记忆网络,获得嵌入表示
Figure 90132DEST_PATH_IMAGE002
的隐藏层向量
Figure 981996DEST_PATH_IMAGE003
可选地,输入模块320,进一步用于:
将隐藏层向量作为输入,分别使用两个多层感知机获得隐藏层向量的低维表示向量。
可选地,输入模块320,进一步用于:
使用双仿射注意力机制计算低维表示向量的依存关系的得分。
可选地,输入模块320,进一步用于:
将依存分析结果输入到解码模块进行
Figure 604607DEST_PATH_IMAGE009
次最优
Figure 265002DEST_PATH_IMAGE010
解码,得到待标注的句子的K棵句法树。
可选地,输出模块330,进一步用于:
获取标注人员选择的多棵句法树中的最优解,作为待标注的句子的标注结果。
本发明实施例中,解决了当前难以快速构建出大规模依存句法树库的问题。现有的众包技术需要标注人员为每一个句子直接标注句法树,这对于标注人员来说难度较大,标注效率比较低。提出了一种面向依存分析的众包标注平台,将标注问题转变成选择问题,这样可以大大降低标注难度,有效提升标注效率,方便快速构建大规模依存句法树库。
图4是本发明实施例提供的一种电子设备400的结构示意图,该电子设备400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)401和一个或一个以上的存储器402,其中,存储器402中存储有至少一条指令,至少一条指令由处理器401加载并执行以实现下述面向依存分析的众包标注方法:
S1、获取待标注的句子。
S2、将待标注的句子输入到构建好的众包标注模型,得到待标注的句子的多棵句法树。
S3、选择多棵句法树中的最优解,作为待标注的句子的标注结果。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述面向依存分析的众包标注方法。例如,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种面向依存分析的众包标注方法,其特征在于,所述方法包括:
S1、获取待标注的句子;
S2、将所述待标注的句子输入到构建好的众包标注模型,得到待标注的句子的多棵句法树;
S3、选择所述多棵句法树中的最优解,作为待标注的句子的标注结果;
所述众包标注模型包括依存句法分析模型以及解码模块;
所述S2中的将所述待标注的句子输入到构建好的众包标注模型,得到待标注的句子的多棵句法树包括:
S21、将所述待标注的句子输入到所述依存句法分析模型,得到待标注的句子的依存分析结果;
S22、将所述依存分析结果输入到所述解码模块,得到待标注的句子的多棵句法树;
所述S21中的将所述待标注的句子输入到所述依存句法分析模型,得到待标注的句子的依存分析结果包括:
S211、获取所述待标注的句子
Figure DEST_PATH_IMAGE001
的嵌入表示
Figure DEST_PATH_IMAGE002
S212、获取所述嵌入表示的隐藏层向量
Figure DEST_PATH_IMAGE003
S213、获取所述隐藏层向量的低维表示向量;其中,所述低维表示向量包括
Figure DEST_PATH_IMAGE004
作为修饰词时的低维表示向量
Figure DEST_PATH_IMAGE005
Figure 653347DEST_PATH_IMAGE004
作为核心词时的低维表示向量
Figure DEST_PATH_IMAGE006
S214、计算所述低维表示向量的依存关系的得分;其中,所述得分包括弧得分和依存关系标签得分。
2.根据权利要求1所述的方法,其特征在于,所述S211中的获取所述待标注的句子
Figure 39329DEST_PATH_IMAGE001
的嵌入表示
Figure 22329DEST_PATH_IMAGE002
包括:
获取所述待标注的句子;其中,所述待标注的句子由单词
Figure DEST_PATH_IMAGE008
构成,
Figure DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE012
为句子中单词的个数,即所述待标注的句子表示为
Figure DEST_PATH_IMAGE014
通过查找表分别获取单词
Figure 824063DEST_PATH_IMAGE008
的嵌入表示
Figure DEST_PATH_IMAGE016
,得到所述待标注的句子的嵌入表示
Figure DEST_PATH_IMAGE018
3.根据权利要求1所述的方法,其特征在于,所述S212中的获取所述嵌入表示的隐藏层向量
Figure 576118DEST_PATH_IMAGE003
包括:
通过多层双向长短期记忆网络,获得所述嵌入表示
Figure 664160DEST_PATH_IMAGE002
的隐藏层向量
Figure 400034DEST_PATH_IMAGE003
4.根据权利要求1所述的方法,其特征在于,所述S213中的获取所述隐藏层向量的低维表示向量包括:
将所述隐藏层向量作为输入,分别使用两个多层感知机获得所述隐藏层向量的低维表示向量。
5.根据权利要求1所述的方法,其特征在于,所述S214中的计算所述低维表示向量的依存关系的得分包括:
使用双仿射注意力机制计算所述低维表示向量的依存关系的得分。
6.根据权利要求1所述的方法,其特征在于,所述S22中的将所述依存分析结果输入到所述解码模块,得到待标注的句子的多棵句法树包括:
将所述依存分析结果输入到所述解码模块进行K次最优K-best解码,得到待标注的句子的K棵句法树。
7.根据权利要求1所述的方法,其特征在于,所述S3中的选择所述多棵句法树中的最优解,作为待标注的句子的标注结果包括:
获取标注人员选择的所述多棵句法树中的最优解,作为待标注的句子的标注结果。
8.一种面向依存分析的众包标注装置,其特征在于,所述装置包括:
获取模块,用于获取待标注的句子;
输入模块,用于将所述待标注的句子输入到构建好的众包标注模型,得到待标注的句子的多棵句法树;
输出模块,用于选择所述多棵句法树中的最优解,作为待标注的句子的标注结果;
所述众包标注模型包括依存句法分析模型以及解码模块;
所述输入模块,进一步用于:
S21、将所述待标注的句子输入到所述依存句法分析模型,得到待标注的句子的依存分析结果;
S22、将所述依存分析结果输入到所述解码模块,得到待标注的句子的多棵句法树;
所述输入模块,进一步用于:
S211、获取所述待标注的句子
Figure 802197DEST_PATH_IMAGE001
的嵌入表示
Figure 736655DEST_PATH_IMAGE002
S212、获取所述嵌入表示的隐藏层向量
Figure 933281DEST_PATH_IMAGE003
S213、获取所述隐藏层向量的低维表示向量;其中,所述低维表示向量包括
Figure 156452DEST_PATH_IMAGE004
作为修饰词时的低维表示向量
Figure 159043DEST_PATH_IMAGE005
Figure 885691DEST_PATH_IMAGE004
作为核心词时的低维表示向量
Figure 581114DEST_PATH_IMAGE006
S214、计算所述低维表示向量的依存关系的得分;其中,所述得分包括弧得分和依存关系标签得分。
CN202210500613.6A 2022-05-10 2022-05-10 一种面向依存分析的众包标注方法及装置 Active CN114611463B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210500613.6A CN114611463B (zh) 2022-05-10 2022-05-10 一种面向依存分析的众包标注方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210500613.6A CN114611463B (zh) 2022-05-10 2022-05-10 一种面向依存分析的众包标注方法及装置

Publications (2)

Publication Number Publication Date
CN114611463A CN114611463A (zh) 2022-06-10
CN114611463B true CN114611463B (zh) 2022-09-13

Family

ID=81869934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210500613.6A Active CN114611463B (zh) 2022-05-10 2022-05-10 一种面向依存分析的众包标注方法及装置

Country Status (1)

Country Link
CN (1) CN114611463B (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7610191B2 (en) * 2004-10-06 2009-10-27 Nuance Communications, Inc. Method for fast semi-automatic semantic annotation
CN103646112B (zh) * 2013-12-26 2017-01-18 中国科学院自动化研究所 利用了网络搜索的依存句法的领域自适应方法
CN104965821B (zh) * 2015-07-17 2018-01-05 苏州大学 一种数据标注方法及装置
CN113553855A (zh) * 2020-04-26 2021-10-26 阿里巴巴集团控股有限公司 观点角色标注方法、装置、计算机设备和介质
CN112115700B (zh) * 2020-08-19 2024-03-12 北京交通大学 一种基于依存句法树和深度学习的方面级情感分析方法
CN112232024A (zh) * 2020-10-13 2021-01-15 苏州大学 一种基于多标注数据的依存句法分析模型训练方法及装置
CN112348108A (zh) * 2020-11-18 2021-02-09 武汉大学 一种基于众包模式的样本标注方法

Also Published As

Publication number Publication date
CN114611463A (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
CN106484682B (zh) 基于统计的机器翻译方法、装置及电子设备
Qiu et al. Fudannlp: A toolkit for chinese natural language processing
CN104050160B (zh) 一种机器与人工翻译相融合的口语翻译方法和装置
WO2022077891A1 (zh) 一种基础多标注数据的依存句法分析模型训练方法及装置
CN107526834B (zh) 联合词性与词序的相关因子训练的word2vec改进方法
CN111563383A (zh) 一种基于BERT与SemiCRF的中文命名实体识别方法
WO2021012519A1 (zh) 基于人工智能的问答方法、装置、计算机设备及存储介质
Wołk et al. Neural-based machine translation for medical text domain. Based on European Medicines Agency leaflet texts
CN110459282A (zh) 序列标注模型训练方法、电子病历处理方法及相关装置
CN110110061A (zh) 基于双语词向量的低资源语种实体抽取方法
Razumovskaia et al. Crossing the conversational chasm: A primer on natural language processing for multilingual task-oriented dialogue systems
Gao et al. Named entity recognition method of Chinese EMR based on BERT-BiLSTM-CRF
WO2022179149A1 (zh) 基于翻译记忆库的机器翻译方法及装置
CN110334186A (zh) 数据查询方法、装置、计算机设备及计算机可读存储介质
CN109493956A (zh) 一种导诊方法
CN113657123A (zh) 基于目标模板指导和关系头编码的蒙语方面级情感分析方法
CN112420205A (zh) 实体识别模型生成方法、装置及计算机可读存储介质
Agirrezabal et al. A comparison of feature-based and neural scansion of poetry
US20230367978A1 (en) Cross-lingual apparatus and method
CN114611463B (zh) 一种面向依存分析的众包标注方法及装置
Yohannes et al. A method of named entity recognition for tigrinya
Ni et al. Masked siamese prompt tuning for few-shot natural language understanding
CN116306653A (zh) 一种正则化领域知识辅助的命名实体识别方法
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
Singh et al. Overview of neural machine translation for English-Hindi

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant