CN115391608B - 一种图到图结构的自动标注转换方法 - Google Patents

一种图到图结构的自动标注转换方法 Download PDF

Info

Publication number
CN115391608B
CN115391608B CN202211013667.6A CN202211013667A CN115391608B CN 115391608 B CN115391608 B CN 115391608B CN 202211013667 A CN202211013667 A CN 202211013667A CN 115391608 B CN115391608 B CN 115391608B
Authority
CN
China
Prior art keywords
node
graph
arc
analyzer
attachment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211013667.6A
Other languages
English (en)
Other versions
CN115391608A (zh
Inventor
车万翔
雷志林
赵妍妍
刘挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202211013667.6A priority Critical patent/CN115391608B/zh
Publication of CN115391608A publication Critical patent/CN115391608A/zh
Application granted granted Critical
Publication of CN115391608B publication Critical patent/CN115391608B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/448Execution paradigms, e.g. implementations of programming paradigms
    • G06F9/4488Object-oriented
    • G06F9/4492Inheritance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

一种图到图结构的自动标注转换方法,涉及自然语言处理技术领域,针对现有技术中通过人工进行标注规范转换准确率低的问题,本申请通过简单有效的线性变换将源解析器中的核心参数适配到目标解析器中,并继承源解析器中的所有其他参数。图到图线性变换方法能充分继承源标准规范的信息并将其迁移到目标规范,因此本申请能有效避免人工规则和大量平行语料的限制,大幅提升图结构转换的准确率以及获得高质量的图结构标注数据。在少量平行语料帮助下,本申请的方法可以取得比现有的各种基线模型更好的效果。

Description

一种图到图结构的自动标注转换方法
技术领域
本发明涉及自然语言处理技术领域,具体为一种图到图结构的自动标注转换方法。
背景技术
随着深度学习的发展,监督学习算法的能力得到了巨大的跨越。然而基于深度学习的监督学习算法需要大量的标注数据,对于图结构的标注数据,由于其标注难度高,标注时间长,因此获取的成本十分高昂。图到图结构的转换任务是给定一个文本句子以及基于该文本标注的源规范的图结构信息,将该图结构信息转化为目标规范(另一种标注规范)的图结构信息,可有效扩充标注数据。传统基于规则的方法在解决该问题的时候往往需要专家构建十分准确的转换规则,费时费力,开发周期长。此外,专家构建的规则面临通用性的问题,无法解决所有场景下的图到图结构的自动标注。传统监督学习算法需要大量的平行标注语料(同时标注源规范图结构和目标规范的图结构),然后将源规范的图结构信息进行编码融入图结构分析器中,以达到让模型来隐式学习转换规则。这些方法都无法摆脱人工规则或者大量标注数据的限制。
发明内容
本发明的目的是:针对现有技术中通过人工进行标注规范转换准确率低的问题,提出一种图到图结构的自动标注转换方法。
本发明为了解决上述技术问题采取的技术方案是:
一种图到图结构的自动标注转换方法,包括以下步骤:
步骤一:获取源规范文本,然后使用预训练语言模型对源规范文本进行编码,得到向量表示;
步骤二:根据编码后的向量表示,并利用双仿射分析器得到源规范解析器;
步骤三:将线性函数作用于源规范解析器的注意力矩阵上,同时冻结注意力矩阵的参数,得到目标规范解析器;
步骤四:对源规范文本进行标注,得到目标规范的标注文本,之后利用目标规范的标注文本和源规范文本对目标规范解析器进行优化,得到优化后的目标规范解析器;
步骤五:利用优化后的目标规范解析器对待标注文本进行预测,得到目标规范的标注信息。
进一步的,所述步骤二的具体步骤为:
步骤二一:将编码后的向量表示通过多层的双向LSTM结构进行编码,得到编码表示hi
步骤二二:将编码表示hi分别送入4个单层的前向神经网络层中,得到第i个词语作为头结点或者依附节点的弧表示和标签表示;
步骤二三:通过双仿射分类器预测弧表示的分数和标签表示的分数;
步骤二四:对于弧表示的分数,若弧表示的分数不小于预先设定的阈值,则头结点和依附节点之间存在弧,并执行步骤二五;
步骤二五:对于标签表示的分数,取最大的分数对应的标签类别,将该标签类别标记在对应的头结点和依附节点的弧上,得到源规范解析器。
进一步的,所述头结点的弧表示为:
Figure BDA0003811619370000021
依附节点的弧表示为:
Figure BDA0003811619370000022
头结点的标签表示为:
Figure BDA0003811619370000023
依附节点的标签表示为:
Figure BDA0003811619370000024
其中,FFNarc-head表示作用于头节点的前馈神经网络得到的头节点的弧表示,FFNarc-dep表示作用于依附节点的前馈神经网络得到的依附节点的弧表示,FFNrel-head表示作用于头节点的前馈神经网络得到的头结点的标签表示,FFNrel-dep表示作用于依附节点的前馈神经网络得到的依附节点的标签表示。
进一步的,所述双仿射分类器表示为:
Figure BDA0003811619370000025
其中,Biaf(xi,xj)表示双仿射分析器的函数表示,xi和xj表示输入的两个节点表示,U表示双仿射注意力矩阵的二阶参数,W表示双仿射注意力矩阵的一阶参数,b表示双仿射注意力矩阵的零阶参数。
进一步的,所述弧表示的分数表示为:
Figure BDA0003811619370000031
其中,Biafarc()表示预测弧的双仿射分析器,
Figure BDA0003811619370000032
和/>
Figure BDA0003811619370000033
分别表示输入参数为节点i和节点j的弧表示,节点j作为头节点,节点i作为依附节点,/>
Figure BDA0003811619370000034
表示存在一条由节点j指向节点i的依存弧的得分。
进一步的,所述标签表示的分数表示为:
Figure BDA0003811619370000035
其中,Biafrel()表示预测依存弧标签的双仿射分析器,输入参数为节点i和节点j的标签表示,分别为
Figure BDA0003811619370000036
节点j作为头节点,节点i作为依附节点,/>
Figure BDA0003811619370000037
表示在一条由节点j指向节点i的依存弧上各个标签的得分。
进一步的,所述目标规范解析器表示为:
Figure BDA0003811619370000038
Ut=VuUs
Wt=VwWs
其中,Us、Ws和bs分别为源分析器中的相应参数,Vu和Vw为线性变换函数,Vu作用于Us,Vw作用于Ws,Biaft(xi,xj)为目标规范的双仿射解析器,Ut、Wt分别为目标规范双仿射解析器中的二阶注意力矩阵参数和一阶注意力矩阵参数。
本发明的有益效果是:
本申请通过简单有效的线性变换将源解析器中的核心参数适配到目标解析器中,并继承源解析器中的所有其他参数。图到图线性变换方法能充分继承源标准规范的信息并将其迁移到目标规范,因此本申请能有效避免人工规则和大量平行语料的限制,大幅提升图结构转换的准确率以及获得高质量的图结构标注数据。在少量平行语料帮助下,本申请的方法可以取得比现有的各种基线模型更好的效果。
附图说明
图1为图到秃线性变换方法架构图;
图2为图到图线性变换方法流程图;
图3为图到图结构自动标注流程图。
具体实施方式
需要特别说明的是,在不冲突的情况下,本申请公开的各个实施方式之间可以相互组合。
具体实施方式一:参照图1具体说明本实施方式,本实施方式所述的一种图到图结构的自动标注转换方法,包括以下步骤:
步骤一:获取源规范文本,然后使用预训练语言模型对源规范文本进行编码,得到向量表示;
步骤二:根据编码后的向量表示,并利用双仿射分析器得到源规范解析器;
步骤三:将线性函数作用于源规范解析器的注意力矩阵上,同时冻结注意力矩阵的参数,得到目标规范解析器;
步骤四:对源规范文本进行标注,得到目标规范的标注文本,之后利用目标规范的标注文本和源规范文本对目标规范解析器进行优化,得到优化后的目标规范解析器;
步骤五:利用优化后的目标规范解析器对待标注文本进行预测,得到目标规范的标注信息。
目前,标注规范转换的方法主要是基于事先定义的专家规则或者从大量有标签数据中人工抽取的特征,在不同标注规范之间进行转换。这种转换方法需要大量的劳动力,且不易推广到所有的场景中。加之,这些转换方法主要是针对树库之间的转换。因此,本申请提出了一种图到图结构的自动标注方法,该方法通过简单有效的线性变换将源解析器中的核心参数适配到目标解析器中,并继承源解析器中的所有其他参数。图到图线性变换方法能充分继承源标准规范的信息并将其迁移到目标规范,因此该方法能有效避免人工规则和大量平行语料的限制,大幅提升图结构转换的准确率以及获得高质量的图结构标注数据。在少量平行语料帮助下,本申请的方法可以取得比现有的各种基线模型更好的效果。
本申请首先使用预训练语言模型作为每个词语的编码器,然后采用双仿射(Biaffine)分析器来预测目标规范的图结构信息。为了实现图到图结构的转换,模型必须能够显式或者隐式地学到源规范的结构信息。图到图的线性变换方法(Graph2GraphLinear Transformation,G2GLT)直接学习一个线性函数,该函数将在源规范数据上训练的分析器转换到目标规范上。由于Biaffine注意力矩阵是Biaffine分析器的核心组件,其中包含了对语义依存图进行预测的重要信息。因此一个很自然的方法就是继承在源规范上训练好的分析器,进而帮助在目标规范上训练分析器。下面本申请分别详细介绍双仿射分析器的结构、图到图的线性变换方法以及整个图到图结构自动标注方法的流程。对于图到图线性变换方法的流程图参考图2,对于图到图线性变换方法的模型架构图请参考图1,对于图到图结构自动标注方法流程请参考图3。
1、双仿射分析器(Biaffine)
双仿射分析器是目前最佳的基于图的依存结构分析器。它利用了双仿射分类器来预测图结构中的弧和标签。下面是该方法的具体步骤:
1)通过多层的双向LSTM结构来编码句子中的每个词语,其原始输入是经过预训练语言模型得到的。
2)第i个词语经过LSTM层的输出定义为hi,之后将hi分别送入4个单层的前向神经网络层(FFN),分别获得第i个词语作为头结点或者依附节点的弧表示(Eq.1和Eq.2)和标签表示(Eq.3和Eq.4)。
Figure BDA0003811619370000051
Figure BDA0003811619370000052
Figure BDA0003811619370000053
Figure BDA0003811619370000054
3)通过双仿射分类器(Eq.5)来计算预测弧的分数(Eq.6)和标签的分数(Eq.7),最终得到整个图结构。
Figure BDA0003811619370000055
Figure BDA0003811619370000056
Figure BDA0003811619370000057
2、图到图线性变换方法(Graph2Graph Linear Transformation)
1)在大规模源规范的标注数据上训练一个分析器,记作源分析器。源分析器只能预测源规范的标注信息,并不能预测目标规范的标注信息。
2)为了让源分析器能够适应到目标规范上,形成目标规范的分析器(目标分析器),本申请设计了一个可训练的线性函数,使其作用于源分析器中用于预测关系标签的双仿射注意力矩阵上。具体来说,假设Us,Ws和bs分别是源分析器中的参数。两个线性变换的函数Vu和Vw分别作用在Us,Ws上,进而得到目标规范下分析器(目标规范解析器)的参数Ut,Wt
Ut=VuUs (Eq.8)
Wt=VwWs (Eq.9)
最终的目标分析器为:
Figure BDA0003811619370000061
3)(步骤四)然后将源分析器继续在少量人工标注的目标规范数据上进行微调,冻结从源分析器继承而来的双仿射注意力矩阵参数。
4)最后得到了能直接预测目标规范标注的Biaffine分析器。
3、图到图结构自动标注方法的流程
1)准备公开的大规模规范的标注文本和少量人工标注的目标规范的文本
2)利用上节介绍的图到图线性变换方法,得到目标规范的分析器
使用目标规范的分析器,对无标注文本进行预测,得到目标规范的标注信息,从而达到自动标注的效果。
需要注意的是,具体实施方式仅仅是对本发明技术方案的解释和说明,不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的,仍应落入本发明的保护范围内。

Claims (6)

1.一种图到图结构的自动标注转换方法,其特征在于包括以下步骤:
步骤一:获取源规范文本,然后使用预训练语言模型对源规范文本进行编码,得到向量表示;
步骤二:根据编码后的向量表示,并利用双仿射分析器得到源规范解析器;
步骤三:将线性函数作用于源规范解析器的注意力矩阵上,同时冻结注意力矩阵的参数,得到目标规范解析器;
步骤四:对源规范文本进行标注,得到目标规范的标注文本,之后利用目标规范的标注文本和源规范文本对目标规范解析器进行优化,得到优化后的目标规范解析器;
步骤五:利用优化后的目标规范解析器对待标注文本进行预测,得到目标规范的标注信息;
所述目标规范解析器表示为:
Figure FDA0004166831650000011
Ut=VuUs
Wt=VwWs
其中,Us、Ws和bs分别为源分析器中的相应参数,Vu和Vw为线性变换函数,Vu作用于Us,Vw作用于Ws,Biaft(xi,xj)为目标规范的双仿射解析器,Ut、Wt分别为目标规范双仿射解析器中的二阶注意力矩阵参数和一阶注意力矩阵参数,xi和xj表示输入的两个节点表示。
2.根据权利要求1所述的一种图到图结构的自动标注转换方法,其特征在于所述步骤二的具体步骤为:
步骤二一:将编码后的向量表示通过多层的双向LSTM结构进行编码,得到编码表示hi
步骤二二:将编码表示hi分别送入4个单层的前向神经网络层中,得到第i个词语作为头结点或者依附节点的弧表示和标签表示;
步骤二三:通过双仿射分类器预测弧表示的分数和标签表示的分数;
步骤二四:对于弧表示的分数,若弧表示的分数不小于预先设定的阈值,则头结点和依附节点之间存在弧,并执行步骤二五;
步骤二五:对于标签表示的分数,取最大的分数对应的标签类别,将该标签类别标记在对应的头结点和依附节点的弧上,得到源规范解析器。
3.根据权利要求2所述的一种图到图结构的自动标注转换方法,其特征在于所述头结点的弧表示为:
Figure FDA0004166831650000021
依附节点的弧表示为:
Figure FDA0004166831650000022
头结点的标签表示为:
Figure FDA0004166831650000023
依附节点的标签表示为:
Figure FDA0004166831650000024
/>
其中,FFNarc-head表示作用于头节点的前馈神经网络得到的头节点的弧表示,FFNarc-dep表示作用于依附节点的前馈神经网络得到的依附节点的弧表示,FFNrel-head表示作用于头节点的前馈神经网络得到的头结点的标签表示,FFNrel-dep表示作用于依附节点的前馈神经网络得到的依附节点的标签表示。
4.根据权利要求3所述的一种图到图结构的自动标注转换方法,其特征在于所述双仿射分类器表示为:
Figure FDA0004166831650000025
其中,Biaf(xi,xj)表示双仿射分析器的函数表示,xi和xj表示输入的两个节点表示,U表示双仿射注意力矩阵的二阶参数,W表示双仿射注意力矩阵的一阶参数,b表示双仿射注意力矩阵的零阶参数。
5.根据权利要求4所述的一种图到图结构的自动标注转换方法,其特征在于所述弧表示的分数表示为:
Figure FDA0004166831650000026
其中,Biafarc()表示预测弧的双仿射分析器,
Figure FDA0004166831650000027
和/>
Figure FDA0004166831650000028
分别表示输入参数为节点i和节点j的弧表示,节点j作为头节点,节点i作为依附节点,/>
Figure FDA0004166831650000029
表示存在一条由节点j指向节点i的依存弧的得分。
6.根据权利要求5所述的一种图到图结构的自动标注转换方法,其特征在于所述标签表示的分数表示为:
Figure FDA0004166831650000031
其中,Biafrel()表示预测依存弧标签的双仿射分析器,输入参数为节点i和节点j的标签表示,分别为
Figure FDA0004166831650000032
节点j作为头节点,节点i作为依附节点,/>
Figure FDA0004166831650000033
表示在一条由节点j指向节点i的依存弧上各个标签的得分。/>
CN202211013667.6A 2022-08-23 2022-08-23 一种图到图结构的自动标注转换方法 Active CN115391608B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211013667.6A CN115391608B (zh) 2022-08-23 2022-08-23 一种图到图结构的自动标注转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211013667.6A CN115391608B (zh) 2022-08-23 2022-08-23 一种图到图结构的自动标注转换方法

Publications (2)

Publication Number Publication Date
CN115391608A CN115391608A (zh) 2022-11-25
CN115391608B true CN115391608B (zh) 2023-05-23

Family

ID=84120427

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211013667.6A Active CN115391608B (zh) 2022-08-23 2022-08-23 一种图到图结构的自动标注转换方法

Country Status (1)

Country Link
CN (1) CN115391608B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647254B (zh) * 2018-04-23 2021-06-22 苏州大学 基于模式嵌入的自动树库转化方法及系统
CN110210035B (zh) * 2019-06-04 2023-01-24 苏州大学 序列标注方法、装置及序列标注模型的训练方法
CN111814487B (zh) * 2020-07-17 2024-05-31 科大讯飞股份有限公司 一种语义理解方法、装置、设备及存储介质
CN112232024A (zh) * 2020-10-13 2021-01-15 苏州大学 一种基于多标注数据的依存句法分析模型训练方法及装置
CN112765956B (zh) * 2021-01-22 2023-06-20 大连民族大学 基于多任务学习的依存句法分析方法及应用

Also Published As

Publication number Publication date
CN115391608A (zh) 2022-11-25

Similar Documents

Publication Publication Date Title
CN110781683B (zh) 一种实体关系联合抽取方法
CN111694924B (zh) 一种事件抽取方法和系统
CN110413785B (zh) 一种基于bert和特征融合的文本自动分类方法
CN113128229B (zh) 一种中文实体关系联合抽取方法
US11494647B2 (en) Slot filling with contextual information
CN111310471B (zh) 一种基于bblc模型的旅游命名实体识别方法
CN111985205A (zh) 一种方面级情感分类模型
CN112966525B (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
CN115906815B (zh) 一种用于修改一种或多种类型错误句子的纠错方法及装置
CN110781271A (zh) 一种基于层次注意力机制的半监督网络表示学习模型
CN114154504A (zh) 一种基于多信息增强的中文命名实体识别算法
CN113221571A (zh) 基于实体相关注意力机制的实体关系联合抽取方法
CN114648015B (zh) 一种基于依存关系注意力模型的方面级情感词识别方法
CN116340513A (zh) 一种基于标签与文本交互的多标签情感分类方法和系统
CN114492796A (zh) 一种基于语法树的多任务学习手语翻译方法
CN113297374A (zh) 一种基于bert和字词特征融合的文本分类方法
CN117390189A (zh) 基于前置分类器的中立文本生成方法
CN115391608B (zh) 一种图到图结构的自动标注转换方法
CN114298052B (zh) 一种基于概率图的实体联合标注关系抽取方法和系统
CN112733526B (zh) 一种自动识别财税文件中征税对象的抽取方法
CN114925695A (zh) 一种命名实体识别方法、系统、设备及存储介质
CN110390010B (zh) 一种自动文本摘要方法
CN112016299A (zh) 计算机执行、利用神经网络生成依存句法树的方法及装置
Song et al. Research of Chinese relation extraction based on BERT
CN114896372B (zh) 一种提高数据意图识别能力的文本数据增强方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant