CN114611463A - 一种面向依存分析的众包标注方法及装置 - Google Patents
一种面向依存分析的众包标注方法及装置 Download PDFInfo
- Publication number
- CN114611463A CN114611463A CN202210500613.6A CN202210500613A CN114611463A CN 114611463 A CN114611463 A CN 114611463A CN 202210500613 A CN202210500613 A CN 202210500613A CN 114611463 A CN114611463 A CN 114611463A
- Authority
- CN
- China
- Prior art keywords
- labeled
- sentence
- dependency
- obtaining
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/143—Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种面向依存分析的众包标注方法及装置,涉及自然语言处理技术领域。包括:获取待标注的句子;将待标注的句子输入到构建好的众包标注模型,得到待标注的句子的多棵句法树;选择多棵句法树中的最优解,作为待标注的句子的标注结果。本发明能够解决当前难以快速构建出大规模依存句法树库的问题。提出了一种面向依存分析的众包标注平台,将标注问题转变成选择问题,大大降低了标注难度。
Description
技术领域
本发明涉及自然语言处理技术领域,特别是指一种面向依存分析的众包标注方法及装置。
背景技术
依存句法分析是自然语言处理中一个重要的任务,其目标是刻画自然语言句子的句法和语义结构。具体来说,它将给定的输入句子表示成一棵依存句法树,从而分析句子内部词语之间的修饰或搭配关系。近年来,随着深度学习的快速发展,神经网络模型变得越来越复杂,依存分析的准确率也有了显著提高,但由此带来的问题是模型对于高质量训练数据的需求愈加旺盛。对于依存句法分析任务而言,大多数依存句法黄金标准语料库都是由少数语言学专家标注构建,这一过程费时费力,因此目前现有的语料库都比较小。
受到众包工作的启发,使用大量非专家标注人员构建依存句法树库是一种可行的方法。但相较于专家标注,这种标注方法标注质量相对较低,并且对于标注人员来说难度较大。因此,需要研究方法降低对标注人员的难度,有效提升标注效率,快速构建大规模依存句法树库。
现有众包标注平台需要先标注人员进行语言学培训,然后让他们为每一个句子直接标注句法树。由于标注过程需要大量的知识,因此对于标注人员来说难度较大,标注效率也比较低。
发明内容
本发明针对如何降低对标注人员的难度,有效提升标注效率,快速构建大规模依存句法树库的问题,提出了本发明。
为解决上述技术问题,本发明提供如下技术方案:
一方面,本发明提供了一种面向依存分析的众包标注方法,该方法由电子设备实现,该方法包括:
S1、获取待标注的句子。
S2、将待标注的句子输入到构建好的众包标注模型,得到待标注的句子的多棵句法树。
S3、选择多棵句法树中的最优解,作为待标注的句子的标注结果。
可选地,众包标注模型包括依存句法分析模型以及解码模块。
S2中的将待标注的句子输入到构建好的众包标注模型,得到待标注的句子的多棵句法树包括:
S21、将待标注的句子输入到依存句法分析模型,得到待标注的句子的依存分析结果。
S22、将依存分析结果输入到解码模块,得到待标注的句子的多棵句法树。
可选地,S21中的将待标注的句子输入到依存句法分析模型,得到待标注的句子的依存分析结果包括:
S214、计算低维表示向量的依存关系的得分;其中,得分包括弧得分和依存关系标签得分。
可选地,S213中的获取隐藏层向量的低维表示向量包括:
将隐藏层向量作为输入,分别使用两个多层感知机获得隐藏层向量的低维表示向量。
可选地,S214中的计算低维表示向量的依存关系的得分包括:
使用双仿射注意力机制计算低维表示向量的依存关系的得分。
可选地,S22中的将依存分析结果输入到解码模块,得到待标注的句子的多棵句法树包括:
可选地,S3中的选择多棵句法树中的最优解,作为待标注的句子的标注结果包括:
获取标注人员选择的多棵句法树中的最优解,作为待标注的句子的标注结果。
另一方面,本发明提供了一种面向依存分析的众包标注装置,该装置应用于实现面向依存分析的众包标注方法,该装置包括:
获取模块,用于获取待标注的句子。
输入模块,用于将待标注的句子输入到构建好的众包标注模型,得到待标注的句子的多棵句法树。
输出模块,用于选择多棵句法树中的最优解,作为待标注的句子的标注结果。
可选地,众包标注模型包括依存句法分析模型以及解码模块。
可选地,输入模块,进一步用于:
S21、将待标注的句子输入到依存句法分析模型,得到待标注的句子的依存分析结果。
S22、将依存分析结果输入到解码模块,得到待标注的句子的多棵句法树。
可选地,输入模块,进一步用于:
S214、计算低维表示向量的依存关系的得分;其中,得分包括弧得分和依存关系标签得分。
可选地,输入模块,进一步用于:
可选地,输入模块,进一步用于:
可选地,输入模块,进一步用于:
将隐藏层向量作为输入,分别使用两个多层感知机获得隐藏层向量的低维表示向量。
可选地,输入模块,进一步用于:
使用双仿射注意力机制计算低维表示向量的依存关系的得分。
可选地,输入模块,进一步用于:
可选地,输出模块,进一步用于:
获取标注人员选择的多棵句法树中的最优解,作为待标注的句子的标注结果。
一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述面向依存分析的众包标注方法。
一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述面向依存分析的众包标注方法。
本发明实施例提供的技术方案带来的有益效果至少包括:
上述方案中,解决了当前难以快速构建出大规模依存句法树库的问题。现有的众包技术需要标注人员为每一个句子直接标注句法树,这对于标注人员来说难度较大,标注效率比较低。提出了一种面向依存分析的众包标注平台,将标注问题转变成选择问题,这样可以大大降低标注难度,有效提升标注效率,方便快速构建大规模依存句法树库。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的面向依存分析的众包标注方法流程示意图;
图2是本发明实施例提供的训练和标注过程示意图;
图3是本发明实施例提供的面向依存分析的众包标注装置框图;
图4是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
如图1所示,本发明实施例提供了一种面向依存分析的众包标注方法,该方法可以由电子设备实现。如图1所示的面向依存分析的众包标注方法流程图,该方法的处理流程可以包括如下的步骤:
S1、获取待标注的句子。
S2、将待标注的句子输入到构建好的众包标注模型,得到待标注的句子的多棵句法树。
可选地,众包标注模型包括依存句法分析模型以及解码模块。
一种可行的实施方式中,本申请首先使用小规模的金标语料库训练一个依存句法解析器。依存句法解析器的基本模型可以采用现有技术中的Biaffine Parser解析器。
S2中的将待标注的句子输入到构建好的众包标注模型,得到待标注的句子的多棵句法树包括:
S21、将待标注的句子输入到依存句法分析模型,得到待标注的句子的依存分析结果。
可选地,S21中的将待标注的句子输入到依存句法分析模型,得到待标注的句子的依存分析结果包括:
可选地,S213中的获取隐藏层向量的低维表示向量包括:
将隐藏层向量作为输入,分别使用两个多层感知机获得隐藏层向量的低维表示向量。
S214、计算低维表示向量的依存关系的得分;其中,得分包括弧得分和依存关系标签得分。
可选地,S214中的计算低维表示向量的依存关系的得分包括:
使用双仿射注意力机制计算低维表示向量的依存关系的得分。
依存关系标签得分的计算方法,如下式(5)所示:
S22、将依存分析结果输入到解码模块,得到待标注的句子的多棵句法树。
可选地,S22中的将依存分析结果输入到解码模块,得到待标注的句子的多棵句法树包括:
S3、选择多棵句法树中的最优解,作为待标注的句子的标注结果。
可选地,S3中的选择多棵句法树中的最优解,作为待标注的句子的标注结果包括:
获取标注人员选择的多棵句法树中的最优解,作为待标注的句子的标注结果。
本发明实施例中,解决了当前难以快速构建出大规模依存句法树库的问题。现有的众包技术需要标注人员为每一个句子直接标注句法树,这对于标注人员来说难度较大,标注效率比较低。提出了一种面向依存分析的众包标注平台,将标注问题转变成选择问题,这样可以大大降低标注难度,有效提升标注效率,方便快速构建大规模依存句法树库。
如图3所示,本发明实施例提供了一种面向依存分析的众包标注装置300,该装置300应用于实现面向依存分析的众包标注方法,该装置300包括:
获取模块310,用于获取待标注的句子。
输入模块320,用于将待标注的句子输入到构建好的众包标注模型,得到待标注的句子的多棵句法树。
输出模块330,用于选择多棵句法树中的最优解,作为待标注的句子的标注结果。
可选地,众包标注模型包括依存句法分析模型以及解码模块。
可选地,输入模块320,进一步用于:
S21、将待标注的句子输入到依存句法分析模型,得到待标注的句子的依存分析结果。
S22、将依存分析结果输入到解码模块,得到待标注的句子的多棵句法树。
可选地,输入模块320,进一步用于:
S214、计算低维表示向量的依存关系的得分;其中,得分包括弧得分和依存关系标签得分。
可选地,输入模块320,进一步用于:
可选地,输入模块320,进一步用于:
可选地,输入模块320,进一步用于:
将隐藏层向量作为输入,分别使用两个多层感知机获得隐藏层向量的低维表示向量。
可选地,输入模块320,进一步用于:
使用双仿射注意力机制计算低维表示向量的依存关系的得分。
可选地,输入模块320,进一步用于:
可选地,输出模块330,进一步用于:
获取标注人员选择的多棵句法树中的最优解,作为待标注的句子的标注结果。
本发明实施例中,解决了当前难以快速构建出大规模依存句法树库的问题。现有的众包技术需要标注人员为每一个句子直接标注句法树,这对于标注人员来说难度较大,标注效率比较低。提出了一种面向依存分析的众包标注平台,将标注问题转变成选择问题,这样可以大大降低标注难度,有效提升标注效率,方便快速构建大规模依存句法树库。
图4是本发明实施例提供的一种电子设备400的结构示意图,该电子设备400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)401和一个或一个以上的存储器402,其中,存储器402中存储有至少一条指令,至少一条指令由处理器401加载并执行以实现下述面向依存分析的众包标注方法:
S1、获取待标注的句子。
S2、将待标注的句子输入到构建好的众包标注模型,得到待标注的句子的多棵句法树。
S3、选择多棵句法树中的最优解,作为待标注的句子的标注结果。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述面向依存分析的众包标注方法。例如,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种面向依存分析的众包标注方法,其特征在于,所述方法包括:
S1、获取待标注的句子;
S2、将所述待标注的句子输入到构建好的众包标注模型,得到待标注的句子的多棵句法树;
S3、选择所述多棵句法树中的最优解,作为待标注的句子的标注结果。
2.根据权利要求1所述的方法,其特征在于,所述众包标注模型包括依存句法分析模型以及解码模块;
所述S2中的将所述待标注的句子输入到构建好的众包标注模型,得到待标注的句子的多棵句法树包括:
S21、将所述待标注的句子输入到所述依存句法分析模型,得到待标注的句子的依存分析结果;
S22、将所述依存分析结果输入到所述解码模块,得到待标注的句子的多棵句法树。
6.根据权利要求3所述的方法,其特征在于,所述S213中的获取所述隐藏层向量的低维表示向量包括:
将所述隐藏层向量作为输入,分别使用两个多层感知机获得所述隐藏层向量的低维表示向量。
7.根据权利要求3所述的方法,其特征在于,所述S214中的计算所述低维表示向量的依存关系的得分包括:
使用双仿射注意力机制计算所述低维表示向量的依存关系的得分。
9.根据权利要求1所述的方法,其特征在于,所述S3中的选择所述多棵句法树中的最优解,作为待标注的句子的标注结果包括:
获取标注人员选择的所述多棵句法树中的最优解,作为待标注的句子的标注结果。
10.一种面向依存分析的众包标注装置,其特征在于,所述装置包括:
获取模块,用于获取待标注的句子;
输入模块,用于将所述待标注的句子输入到构建好的众包标注模型,得到待标注的句子的多棵句法树;
输出模块,用于选择所述多棵句法树中的最优解,作为待标注的句子的标注结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210500613.6A CN114611463B (zh) | 2022-05-10 | 2022-05-10 | 一种面向依存分析的众包标注方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210500613.6A CN114611463B (zh) | 2022-05-10 | 2022-05-10 | 一种面向依存分析的众包标注方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114611463A true CN114611463A (zh) | 2022-06-10 |
CN114611463B CN114611463B (zh) | 2022-09-13 |
Family
ID=81869934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210500613.6A Active CN114611463B (zh) | 2022-05-10 | 2022-05-10 | 一种面向依存分析的众包标注方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114611463B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060074634A1 (en) * | 2004-10-06 | 2006-04-06 | International Business Machines Corporation | Method and apparatus for fast semi-automatic semantic annotation |
CN103646112A (zh) * | 2013-12-26 | 2014-03-19 | 中国科学院自动化研究所 | 利用了网络搜索的依存句法的领域自适应方法 |
CN104965821A (zh) * | 2015-07-17 | 2015-10-07 | 苏州大学张家港工业技术研究院 | 一种数据标注方法及装置 |
CN112115700A (zh) * | 2020-08-19 | 2020-12-22 | 北京交通大学 | 一种基于依存句法树和深度学习的方面级情感分析方法 |
CN112232024A (zh) * | 2020-10-13 | 2021-01-15 | 苏州大学 | 一种基于多标注数据的依存句法分析模型训练方法及装置 |
CN112348108A (zh) * | 2020-11-18 | 2021-02-09 | 武汉大学 | 一种基于众包模式的样本标注方法 |
CN113553855A (zh) * | 2020-04-26 | 2021-10-26 | 阿里巴巴集团控股有限公司 | 观点角色标注方法、装置、计算机设备和介质 |
-
2022
- 2022-05-10 CN CN202210500613.6A patent/CN114611463B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060074634A1 (en) * | 2004-10-06 | 2006-04-06 | International Business Machines Corporation | Method and apparatus for fast semi-automatic semantic annotation |
CN103646112A (zh) * | 2013-12-26 | 2014-03-19 | 中国科学院自动化研究所 | 利用了网络搜索的依存句法的领域自适应方法 |
CN104965821A (zh) * | 2015-07-17 | 2015-10-07 | 苏州大学张家港工业技术研究院 | 一种数据标注方法及装置 |
CN113553855A (zh) * | 2020-04-26 | 2021-10-26 | 阿里巴巴集团控股有限公司 | 观点角色标注方法、装置、计算机设备和介质 |
CN112115700A (zh) * | 2020-08-19 | 2020-12-22 | 北京交通大学 | 一种基于依存句法树和深度学习的方面级情感分析方法 |
CN112232024A (zh) * | 2020-10-13 | 2021-01-15 | 苏州大学 | 一种基于多标注数据的依存句法分析模型训练方法及装置 |
CN112348108A (zh) * | 2020-11-18 | 2021-02-09 | 武汉大学 | 一种基于众包模式的样本标注方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114611463B (zh) | 2022-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106484682B (zh) | 基于统计的机器翻译方法、装置及电子设备 | |
Qiu et al. | Fudannlp: A toolkit for chinese natural language processing | |
CN104050160B (zh) | 一种机器与人工翻译相融合的口语翻译方法和装置 | |
WO2022077891A1 (zh) | 一种基础多标注数据的依存句法分析模型训练方法及装置 | |
CN111274806A (zh) | 分词和词性识别方法、装置及电子病历的分析方法、装置 | |
CN110110061A (zh) | 基于双语词向量的低资源语种实体抽取方法 | |
Razumovskaia et al. | Crossing the conversational chasm: A primer on natural language processing for multilingual task-oriented dialogue systems | |
Gao et al. | Named entity recognition method of Chinese EMR based on BERT-BiLSTM-CRF | |
CN109493956A (zh) | 一种导诊方法 | |
CN113657123A (zh) | 基于目标模板指导和关系头编码的蒙语方面级情感分析方法 | |
US11922726B2 (en) | Systems for and methods of creating a library of facial expressions | |
CN112420205A (zh) | 实体识别模型生成方法、装置及计算机可读存储介质 | |
Agirrezabal et al. | A comparison of feature-based and neural scansion of poetry | |
CN116628186A (zh) | 文本摘要生成方法及系统 | |
US20230367978A1 (en) | Cross-lingual apparatus and method | |
CN114611463B (zh) | 一种面向依存分析的众包标注方法及装置 | |
CN117332073A (zh) | 基于特征融合的工业领域事件联合抽取方法、装置和设备 | |
Yohannes et al. | A method of named entity recognition for tigrinya | |
Ni et al. | Masked siamese prompt tuning for few-shot natural language understanding | |
CN116306653A (zh) | 一种正则化领域知识辅助的命名实体识别方法 | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 | |
Singh et al. | Overview of neural machine translation for English-Hindi | |
CN112257447B (zh) | 基于深度网络as-lstm的命名实体识别系统及识别方法 | |
CN114358021A (zh) | 基于深度学习的任务型对话语句回复生成方法及存储介质 | |
Liu et al. | Phonologically aware bilstm model for mongolian phrase break prediction with attention mechanism |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |