CN111814462B - 基于动态正则化的高效终身关系提取方法及系统 - Google Patents
基于动态正则化的高效终身关系提取方法及系统 Download PDFInfo
- Publication number
- CN111814462B CN111814462B CN202010659589.1A CN202010659589A CN111814462B CN 111814462 B CN111814462 B CN 111814462B CN 202010659589 A CN202010659589 A CN 202010659589A CN 111814462 B CN111814462 B CN 111814462B
- Authority
- CN
- China
- Prior art keywords
- loss function
- task
- regularization
- memory
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 42
- 230000015654 memory Effects 0.000 claims abstract description 117
- 230000006870 function Effects 0.000 claims abstract description 111
- 238000012549 training Methods 0.000 claims abstract description 91
- 238000000034 method Methods 0.000 claims abstract description 26
- 230000001537 neural effect Effects 0.000 claims abstract description 21
- 239000013598 vector Substances 0.000 claims description 37
- 239000011159 matrix material Substances 0.000 claims description 20
- 238000013136 deep learning model Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 208000000044 Amnesia Diseases 0.000 claims description 5
- 208000026139 Memory disease Diseases 0.000 claims description 5
- 238000007710 freezing Methods 0.000 claims description 5
- 230000008014 freezing Effects 0.000 claims description 5
- 230000006984 memory degeneration Effects 0.000 claims description 5
- 208000023060 memory loss Diseases 0.000 claims description 5
- 238000003058 natural language processing Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000009411 base construction Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于动态正则化的高效终身关系提取方法及系统,方法包括以下步骤:接收多个数据集,使用神经模型依次对数据集中的训练样本进行训练,每个数据集对应一个任务;为已接受训练的数据集建立内存块存储记忆数据,并在新的数据集训练时访问所有内存块的记忆数据,为克服灾难性遗忘,定义内存数据损失函数、定义特征损失函数、定义EWC损失函数;建立连续训练任务期间的训练损失之差模型分别计算特征损失函数、内存数据损失函数、EWC损失函数的正则化因子;根据特征损失函数及其正则化因子、内存数据损失函数及其正则化因子、EWC损失函数及其正则化因子得到最优关系提取参数。该方法能在进行终身关系提取时的准确率更高,且不引入额外参数。
Description
技术领域
本发明属于计算机自然语言处理领域,具体涉及一种基于动态正则化的高效终身关系提取方法及系统。
背景技术
关系抽取旨在识别文本中的成对实体的关系事实,可应用于众多自然语言处理领域,例如知识库构建和问答系统,与专注于手动设计特征的传统方法相比,现今基于CNN(卷积神经网络)或RNN(循环神经网络)的神经网络方法在关系抽取中获得了令人瞩目的进步,但大部分的神经模型使用假定了一组预先确定的关系的方法,但这种假设并不总是适用于实际的关系抽取场景中。
现有的终身学习研究致力于克服灾难性遗忘现象,处理神经网络模型的终身学习(也称为连续学习)因为现实的需求通常是动态的并且在不断发展,需要预测的关系集合可能会随着时间的推移而改变或扩大,解决这个问题的直接方案是重新训练,然而,这种启发式方法需要存储以前所有的训练数据以及新数据,来训练一个全新的模型,过程昂贵又费时。
因此,在关系抽取中的终身学习的目标是使模型在一系列的任务上全都表现良好,从而避免在每个阶段重新访问所有以前的数据,但大多数现有方法都是为固定关系集而设计的,他们无法使训练过的模型适应新加入的关系而又不会灾难性地忘记先前学习的知识,灾难性遗忘现象,就是指模型从旧任务切换到新任务时性能显著下降。为了减轻遗忘问题,目前有人提出使用正则化项来防止参数值急剧变化,同时仍能够为新任务找到好的解决方案,或者使用情景记忆模块来增强模型,这些方法已经在简单的图像分类数据集上获得了可观的性能提升,但是事实证明,它们在自然语言处理的场景下表现不佳。实际上,只有有限的文献讨论了关于自然语言处理任务(如关系抽取)的终身学习;为了弥补这一领域的不足,Wang,H.在2019年提出了一种克服关系抽取模型遗忘问题的方法,他们引入了显式的对齐模型,以减轻模型在学习新数据时句子嵌入空间的扭曲,并获得了最佳的性能,但尽管这种方法可以有效工作,但是它十分依赖于对齐模型的使用,这在已经过度参数化的关系抽取模型中引入了更多参数,这会导致训练所需的监督信号,内存和计算资源数量增加。
发明内容
有鉴于此,本发明的目的之一在于提供一种基于动态正则化的高效终身关系提取方法,该方法能提高终身关系提取时的准确率。
为实现上述目的,本发明的技术方案为:
一种基于动态正则化的高效终身关系提取方法,包括以下步骤:
接收多个数据集,使用神经模型依次对数据集中的训练样本进行训练,每个数据集对应一个任务;所述训练样本包括实体对句子和候选关系集、真实关系标签;
为已接受训练的数据集建立内存块存储记忆数据,并在新的数据集训练时访问所有内存块的记忆数据,定义内存数据损失函数;
在训练新数据集前冻结神经模型的权重,并对新的数据集输入编码器,得到输出向量,定义特征损失函数;
使用EWC计算当前任务的费雪信息矩阵,利用所述费雪信息矩阵在下一次任务训练时对神经模型的参数进行正则化,定义EWC损失函数;
建立连续训练任务期间的训练损失之差模型分别计算特征损失函数、内存数据损失函数、EWC损失函数的正则化因子;
根据特征损失函数及其正则化因子、内存数据损失函数及其正则化因子、EWC损失函数及其正则化因子得到最优关系提取参数。
进一步地,所述内存数据损失函数为:
其中,k为第k个任务,B为每个旧任务保留在内存中的样本数,i、t为求和下标,θnew是使用来自内存的记忆数据和当前数据集的新数据训练的深度学习模型的参数;θold是使用之前任务训练的模型的参数,为第t个任务第i个训练样本中的句子经编码器的输出向量,为第t个任务第i个训练样本中的真实关系标签经编码器的输出向量。
进一步地,所述特征损失函数为:
进一步地,所述EWC损失函数为:
其中,Fold,i为根据第i个任务之前所有任务计算得到的费雪信息矩阵,θnew,i为使用第i个任务前的内存的记忆数据和第i个任务的新数据训练的深度学习模型的参数;θold,i是使用第i个任务前训练的模型的参数。
进一步地,所述正则化因子的计算方法为:
定义连续两个任务迭代的当前损失后向差;
计算一个用于记录向量数据集迭代的幅度和方向;
引入迭代变量,将所述迭代变量与上一次任务的正则化因子相加,得到当前任务的正则化因子。
进一步地,所述根据特征损失函数及其正则化因子、内存数据损失函数及其正则化因子、EWC损失函数及其正则化因子得到最优关系提取参数的步骤具体包括:
计算总损失函数:
Loss=Lk+Lm+λfmLfm+λfnLfn+λewcLewc;
Lk为当前损失,Lm为内存损失,λfm为内存数据损失函数的正则化因子,λfn为当前任务上的特征损失函数的正则化因子,λewc为EWC数据损失函数的正则化因子;
定义与关系提取参数相关的损失模型:
训练所有数据集得到最优关系提取参数。
本发明的目的之二在于提供一种基于动态正则化的高效终身关系提取系统,该系统能用于终身关系提取且不引入新的参数。
为实现上述目的,本发明的技术方案为:一种基于动态正则化的高效终身关系提取系统,包括:
训练模块,用于接收多个数据集,并通过神经模型依次对数据集中的训练样本进行训练,每个数据集对应一个任务;所述训练样本包括实体对句子和候选关系集、真实关系标签;
正则化模块,为已接受训练的数据集建立内存块存储记忆数据,并在新的数据集训练时访问所有内存块的记忆数据,同时定义多种损失函数,并计算各损失函数在不同任务间的正则化因子;
损失训练模块,根据所述正则化模块的损失函数和正则化因子,并连同所述训练模块训练得到的数据计算最优关系提取参数。
进一步地,所述正则化模块包括特征正则化单元,内存数据正则化单元,EWC正则化单元;其中,
内存数据正则化单元用于为已接受训练的数据集建立内存块存储记忆数据,并在新的数据集训练时访问所有内存块的记忆数据,定义内存数据损失函数
特征正则化单元用于在训练新数据集前冻结神经模型的权重,并对新的数据集输入编码器,得到输出向量,定义特征损失函数;
EWC正则化单元用于使用EWC计算当前任务的费雪信息矩阵,利用所述费雪信息矩阵在下一次任务训练时对神经模型的参数进行正则化,定义EWC损失函数。
进一步地,所述特征损失函数为:
进一步地,所述EWC损失函数为:
其中,Fold,i为根据第i个任务之前所有任务计算得到的费雪信息矩阵,θnew,i为使用第i个任务前的内存的记忆数据和第i个任务的新数据训练的深度学习模型的参数;θold,i是使用第i个任务前训练的模型的参数。
有益效果
本发明提供一种基于动态正则化的高效终身关系提取方法及系统,其有益效果在于:本发明的方法为每一个旧任务维护一个内存块,该内存块比原始数据集要小得多,并在每次有新任务出现时将记忆数据显示给神经模型,因此,模型可以在学习新知识的同时查看旧任务的信息,减少灾难性遗忘,为了进一步保留旧知识,本发明还利用两种类型的正则化项(EWC正则化项和特征正则化项)来减慢重要权重的更新并约束模型产生固定的句子表示向量,同时方法中还给出了正则化因子不断更新以遵循训练损失的动态变化,而不是使用固定的超参数,使得利用该方法进行终身关系提取时的准确率更高,且不引入额外的参数。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍。显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明一种基于动态正则化的高效终身关系提取系统的一实施例结构示意图;
图2为本发明一种基于动态正则化的高效终身关系提取方法的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
所举实施例是为了更好地对本发明进行说明,但并不是本发明的内容仅局限于所举实施例。所以熟悉本领域的技术人员根据上述发明内容对实施方案进行非本质的改进和调整,仍属于本发明的保护范围。
实施例1
参考图1,为本发明一种基于动态正则化的高效终身关系提取系统的结构示意图,具体地,一种基于动态正则化的高效终身关系提取系统,包括:
训练模块1,用于接收多个数据集,并通过神经模型依次对数据集中的训练样本进行训练,每个数据集对应一个任务;训练样本包括实体对句子和候选关系集、真实关系标签;
正则化模块2,为已接受训练的数据集建立内存块存储记忆数据,并在新的数据集训练时访问所有内存块的记忆数据,同时定义多种损失函数,并计算各损失函数在不同任务间的正则化因子;
本实施例中,正则化模块2包括特征正则化单元22,内存数据正则化单元21,EWC正则化单元23;其中,
内存数据正则化单元21用于为已接受训练的数据集建立内存块存储记忆数据,并在新的数据集训练时访问所有内存块的记忆数据,定义内存数据损失函数;
内存数据损失函数为:
其中,k为第k个任务,B为每个旧任务保留在内存中的样本数,i、t为求和下标,θnew是使用来自内存的记忆数据和当前数据集的新数据训练的深度学习模型的参数;θold是使用之前任务训练的模型的参数,为第t个任务第i个训练样本中的句子经编码器的输出向量,为第t个任务第i个训练样本中的真实关系标签经编码器的输出向量。
特征正则化单元22用于在训练新数据集前冻结神经模型的权重,并对新的数据集输入编码器,得到输出向量,定义特征损失函数;
特征损失函数为:
EWC正则化单元23用于使用EWC计算当前任务的费雪信息矩阵,利用费雪信息矩阵在下一次任务训练时对神经模型的参数进行正则化,定义EWC损失函数;EWC损失函数为:
其中,Fold,i为根据第i个任务之前所有任务计算得到的费雪信息矩阵,θnew,i为使用第i个任务前的内存的记忆数据和第i个任务的新数据训练的深度学习模型的参数;θold,i是使用第i个任务前训练的模型的参数。
优选地,本实施例中的正则化模块2还为每个单元的损失函数计算在不同任务间的正则化因子,具体步骤如下:
定义连续两个任务迭代的当前损失后向差;
计算一个用于记录向量数据集迭代的幅度和方向;
引入迭代变量,将迭代变量与上一次任务的正则化因子相加,得到当前任务的正则化因子。
损失训练模块3,根据正则化模块的损失函数和正则化因子,并连同训练模块训练得到的数据计算最优关系提取参数。
本实施例,能根据特征损失函数及其正则化因子、内存数据损失函数及其正则化因子、EWC损失函数及其正则化因子计算总损失函数,再建立与关系提取参数相关的损失函数模型,在单个神经网络fθ对输入的任务进行训练,学习目标是找到在所有训练数据集上使经验风险最小的参数θ,即最优关系提取参数。
实施例2
参考图2,为本发明一种基于动态正则化的高效终身关系提取方法的流程,具体地,一种基于动态正则化的高效终身关系提取方法,包括以下步骤:
S400:接收多个数据集,使用神经模型依次对数据集中的训练样本进行训练,每个数据集对应一个任务;然后执行步骤S500;
本实施例中,从一系列数据集{D1,D2,...,DN}中学习,其中每个数据集都对应一个任务。任务k的数据包括观察值和标记对 在理想情况下,如果所有任务数据都能同时使用,那么模型可以同时使用它们进行联合训练,但是,根据标准的终身学习设定,数据集会依次到达,因此一次只能访问其中一个数据集。
S500:为已接受训练的数据集建立内存块存储记忆数据,并在新的数据集训练时访问所有内存块的记忆数据,定义内存数据损失函数;然后执行步骤S600;
本实施例中,为了克服灾难性遗忘问题,采用了基于内存的方法,该方法可以使用内存模块来保存先前任务的数据,并在新任务训练中执行经验回放。显然,我们无法将每个示例存储在内存中。在实践中,我们考虑为每个旧任务存储相等数量的B个示例的情景记忆。在训练任务k时,我们保留一个内存模块其中是指从任务t中选出的示例集合,因此有t≤k-1。在经验回放中,我们遵循情景经验回放(EMR),使用从内存中的示例与当前示例一起进行训练。学习任务k时的损失函数可写为:
本步骤中,在使用当前模型训练了新数据集之后,将选择一部分具有代表性的训练数据,并将其存储在内存中,设定内存数据损失函数为:
其中,k为第k个任务,B为每个旧任务保留在内存中的样本数,i、t为求和下标,θnew是使用来自内存的记忆数据和当前数据集的新数据训练的深度学习模型的参数;θold是使用之前任务训练的模型的参数,为第t个任务第i个训练样本中的句子经编码器的输出向量,为第t个任务第i个训练样本中的真实关系标签经编码器的输出向量。
S600:在训练新数据集前冻结神经模型的权重,并对新的数据集输入编码器,得到输出向量,定义特征损失函数;然后执行步骤S700;
通过步骤S600,强制新的训练模型保持旧的行为,保留对旧任务的记忆,减少灾难性遗忘。
S700:使用EWC计算当前任务的费雪信息矩阵,利用费雪信息矩阵在下一次任务训练时对神经模型的参数进行正则化,定义EWC损失函数;然后执行步骤S800;
本步骤中,引入EWC正则化项,当模型按任务到达的顺序增量地进行训练时,对于旧任务很重要的参数的学习速度会变慢,从而可以减少遗忘,具体地,正则化项的核心思想是防止对旧任务做出很大贡献的参数急剧更改,但允许其他参数更自由地更改。具体来说,EWC计算当前任务的费雪信息矩阵,利用该矩阵在下一迭代期对模型参数进行正则化,这使模型能够找到对所有任务都友好的解决方案,将根据之前任务计算的费雪信息矩阵表示为Fold,EWC损失函数为:
其中,Fold,i为根据第i个任务之前所有任务计算得到的费雪信息矩阵,θnew,i为使用第i个任务前的内存的记忆数据和第i个任务的新数据训练的深度学习模型的参数;θold,i是使用第i个任务前训练的模型的参数。
S800:建立连续训练任务期间的训练损失之差模型分别计算特征损失函数、内存数据损失函数、EWC损失函数的正则化因子;然后执行步骤S900。
在训练初始时,学习者尚未从当前任务中获取新知识,这意味着模型应具有较小的正则化强度以促进当前任务学习。但是,通过一定数量的迭代后,模型可能会过分强调当前任务学习,从而导致正则化损失的迅速增加,如果当前损失在迭代中下降,则正则化强度应该增加,以防止由于对当前任务的偏向而在下一次迭代中忽略保留旧知识;否则,正则化强度应降低,以防止对当前任务学习的不足;如果正则化损失在迭代中增加,则相应的正则化强度应增加以巩固旧知识。否则,保持正则化强度不变。针对以上问题,本步骤能动态性自适应地调整参数,具体方法如下,
定义连续两个任务迭代的当前损失后向差;
Lk为当前损失,它驱动模型进行当前任务学习,则后向差可定义为:
本实施例中,用EWC损失函数的正则化项为例来具体描述动态性获得参数:
计算一个用于记录向量数据集迭代的幅度和方向;
接着引入迭代变量vewc,将迭代变量与上一次任务的正则化因子相加,得到当前任务的正则化因子;
本实施例中,迭代变量vewc同时考虑了当前和早期更新的方向和幅度,可通过以下公式获得:
其中β∈[0,1]是一个衰减系数,它允许较早的更新对当前更新有较小的影响。若没有衰减系数正则化强度的更新会趋于振荡甚至发散;
最后通过迭代变量与前一次迭代得到的正则化因子相加,得出:
S900:根据特征损失函数及其正则化因子、内存数据损失函数及其正则化因子、EWC损失函数及其正则化因子得到最优关系提取参数。
计算总损失函数:
Loss=Lk+Lm+λfmLfm+λfnLfn+λewcLewc;
Lk为当前损失,Lm为内存损失,λfm为内存数据损失函数的正则化因子,λfn为当前任务上的特征损失函数的正则化因子,λewc为EWC损失函数的正则化因子;
定义与关系提取参数相关的损失模型:
训练所有数据集得到最优关系提取参数。
优选地,还可将关系抽取建模为匹配问题;来自数据集Dk的训练样本表示为其中包括含实体对的句子候选关系集以及表示真实关系标签的编码器的输出向量(高级表示)表示为对应于的输出向量,对应于的输出向量,对应于的输出向量,则在模型中,给定输入预测关系为:
其中Nc是候选集的大小,cos(·,·)是余弦相似距离。
实施例3
本实施例中,通过实验对实施例1的系统和实施例2的方法的有效性进行验证,具体地,采用Lifelong FewRel数据集和Lifelong SimpleQuestions数据集进行评估,Lifelong FewRel数据集由10个任务组成,这些任务是通过将FewRel数据集划分为10个不相交的簇而获得的,FewRel共有80个关系,因此每个簇包含8个关系,并且簇中的每个样本都包括一个含目标关系的句子和一个通过随机采样选择出来的候选集;LifelongSimpleQuestions的构建与其类似,由SimpleQuestions数据集生成的20个任务组成。
优选地,本实施例中采用ACCavg和ACCwhole在内的两个指标来评估我们的模型。ACCavg评估已观察到的任务的平均测试准确率;ACCwhole评估模型在观察和未观察到的任务上的整体性能。
同时,选用以下几种模型作为基线模型:Origin,简单地基于先前模型来训练新数据;EWC,Kirkpatrick2017年提出的能减慢了对先前任务重要的参数的学习的模型;GEM,Lopez-Paz2016年提出的可以通过情景记忆帮助巩固先前任务学到的知识模型;AGEM,Chaudhry2018年提出的GEM的改进版本,它使GEM在训练时加快了几个数量级,同时保持了相似的性能;EA-EMR,Wang2019年提出的通过约束嵌入空间来进行终身学习模型,这也是是当前最先进的方法。除此之外,为了更好的评估本系统,还给出了实施例1中系统的变形,分别为变形1:仅使用动态特征正则化项;变形2:仅使用动态EWC正则化项。
表格1各模型在不同数据集上的准确率
表1为多个模型在两个数据集上的实验得到的准确率数据表,从结果中我们可以看到,与其他基线模型相比,本发明的系统在两个数据集上的准确率均要高于其他模型,取得了更好的效果;原因是我们的模型使用了三个有效的正则化项,并且可以根据终身学习过程中的训练损失来动态地控制正则化强度,以平衡当前任务学习和旧知识保存,而其他基线模型仅考虑了使用固定超参数的平衡策略。
配备内存模块可以显著缓解灾难性遗忘问题,但是它需要保存旧任务数据,这可能会导致过高的内存开销,另外,在某些情况下(如数据流)中,模型可能根本不能够访问旧任务的数据。因此,我们还测试了没有内存支持的情况下模型的准确性:从表1可以看出,变形1的准确率比EMR模型高得多,并且与EA-EMR模型性能相当;变形2在SimpleQuestions数据集上与EA-EMR模型性能相似,在FewRel数据集上与EA-EMR模型相比,其ACC_whole增量约为3%,ACC_whole增量为5%,即在没有内存帮助的情况下,本发明中的系统变形1与变形2也可以很好地工作。
从变形2与EWC模型得到的数据来比较,变形2模型的准确率大大提高,这证明本发明的动态正则化方法更有效地平衡了学习与遗忘之间的关系。
从模型中使用的参数量来看,EA-EMR的对齐模型将使用36%的参数来对齐句子嵌入空间,而本发明中的系统不需要使用其他的对齐层,而是使用正则化项动态地防止嵌入空间变形;如果我们将d,h,n分别表示为词嵌入维度,LSTM的隐藏层大小和对齐层大小(n=2h),本实施例中,设d=300,h=200,n=400,则可计算EA-EMR和本文方法的参数总数为:
EA-EMR:2×d×h+4×h2+4×h+2×h×n+n=441,200
本发明模型:2×d×h+4×h2+4×h=280,800
由此可见,本发明中的系统总参数空间是中的64%,对齐模型需要更多的2hn+n=160,400个参数,在不引入更多参数的情况下,本发明的系统参数量远小于EA-EMR模型,即本发明的系统能实现在提高抽取关系的准确率与性能时,减少系统参数量的增加。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (10)
1.一种基于动态正则化的高效终身关系提取方法,其特征在于,包括以下步骤:
接收多个数据集,使用神经模型依次对数据集中的训练样本进行训练,每个数据集对应一个任务;所述训练样本包括实体对句子和候选关系集、真实关系标签;
为已接受训练的数据集建立内存块存储记忆数据,并在新的数据集训练时访问所有内存块的记忆数据,定义内存数据损失函数;
在训练新数据集前冻结神经模型的权重,并对新的数据集输入编码器,得到输出向量,定义特征损失函数;
使用EWC计算当前任务的费雪信息矩阵,利用所述费雪信息矩阵在下一次任务训练时对神经模型的参数进行正则化,定义EWC损失函数;
建立连续训练任务期间的训练损失之差模型分别计算特征损失函数、内存数据损失函数、EWC损失函数的正则化因子;
根据特征损失函数及其正则化因子、内存数据损失函数及其正则化因子、EWC损失函数及其正则化因子计算总损失函数然后得到最优关系提取参数;其中,所述总损失函数为:
Loss=Lk+Lm+λfmLfm+λfnLfn+λewcLewc;
Lk为当前损失,Lm为内存损失,λfm为内存数据损失函数的正则化因子,λfn为当前任务上的特征损失函数的正则化因子,λewc为EWC损失函数的正则化因子。
5.根据权利要求4所述的方法,其特征在于,所述正则化因子的计算方法为:
定义连续两个任务迭代的当前损失后向差;
计算一个用于记录向量数据集迭代的幅度和方向;
引入迭代变量,将所述迭代变量与上一次任务的正则化因子相加,得到当前任务的正则化因子。
7.一种基于动态正则化的高效终身关系提取系统,其特征在于,包括:
训练模块,用于接收多个数据集,并通过神经模型依次对数据集中的训练样本进行训练,每个数据集对应一个任务;所述训练样本包括实体对句子和候选关系集、真实关系标签;
正则化模块,为已接受训练的数据集建立内存块存储记忆数据,并在新的数据集训练时访问所有内存块的记忆数据,同时定义多种损失函数,并计算各损失函数在不同任务间的正则化因子;其中,所述多种损失函数包括内存数据损失函数、特征损失函数、EWC损失函数;
损失训练模块,根据所述正则化模块的损失函数和正则化因子,并连同所述训练模块训练得到的数据计算总损失函数然后得到最优关系提取参数;所述总损失函数为:
Loss=Lk+Lm+λfmLfm+λfnLfn+λewcLewc;
Lk为当前损失,Lm为内存损失,λfm为内存数据损失函数的正则化因子,λfn为当前任务上的特征损失函数的正则化因子,λewc为EWC损失函数的正则化因子。
8.根据权利要求7所述的系统,其特征在于,所述正则化模块包括特征正则化单元,内存数据正则化单元,EWC正则化单元;其中,
内存数据正则化单元用于为已接受训练的数据集建立内存块存储记忆数据,并在新的数据集训练时访问所有内存块的记忆数据,定义内存数据损失函数;
特征正则化单元用于在训练新数据集前冻结神经模型的权重,并对新的数据集输入编码器,得到输出向量,定义特征损失函数;
EWC正则化单元用于使用EWC计算当前任务的费雪信息矩阵,利用所述费雪信息矩阵在下一次任务训练时对神经模型的参数进行正则化,定义EWC损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010659589.1A CN111814462B (zh) | 2020-07-09 | 2020-07-09 | 基于动态正则化的高效终身关系提取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010659589.1A CN111814462B (zh) | 2020-07-09 | 2020-07-09 | 基于动态正则化的高效终身关系提取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111814462A CN111814462A (zh) | 2020-10-23 |
CN111814462B true CN111814462B (zh) | 2021-02-09 |
Family
ID=72842352
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010659589.1A Active CN111814462B (zh) | 2020-07-09 | 2020-07-09 | 基于动态正则化的高效终身关系提取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111814462B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113792874B (zh) * | 2021-09-08 | 2024-09-06 | 清华大学 | 基于先天知识的持续学习方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543838A (zh) * | 2018-11-01 | 2019-03-29 | 浙江工业大学 | 一种基于变分自编码器的图像增量学习方法 |
CN109690576A (zh) * | 2016-07-18 | 2019-04-26 | 渊慧科技有限公司 | 在多个机器学习任务上训练机器学习模型 |
CN109754079A (zh) * | 2018-12-13 | 2019-05-14 | 中南大学 | 一种基于参数重要性克服灾难性遗忘的方法 |
CN111199242A (zh) * | 2019-12-18 | 2020-05-26 | 浙江工业大学 | 一种基于动态修正向量的图像增量学习方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019193462A1 (en) * | 2018-04-02 | 2019-10-10 | King Abdullah University Of Science And Technology | Incremental learning method through deep learning and support data |
-
2020
- 2020-07-09 CN CN202010659589.1A patent/CN111814462B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109690576A (zh) * | 2016-07-18 | 2019-04-26 | 渊慧科技有限公司 | 在多个机器学习任务上训练机器学习模型 |
CN109543838A (zh) * | 2018-11-01 | 2019-03-29 | 浙江工业大学 | 一种基于变分自编码器的图像增量学习方法 |
CN109754079A (zh) * | 2018-12-13 | 2019-05-14 | 中南大学 | 一种基于参数重要性克服灾难性遗忘的方法 |
CN111199242A (zh) * | 2019-12-18 | 2020-05-26 | 浙江工业大学 | 一种基于动态修正向量的图像增量学习方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111814462A (zh) | 2020-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111738301B (zh) | 一种基于双通道学习的长尾分布图像数据识别方法 | |
CN110555399B (zh) | 手指静脉识别方法、装置、计算机设备及可读存储介质 | |
CN110516095B (zh) | 基于语义迁移的弱监督深度哈希社交图像检索方法和系统 | |
CN110941734B (zh) | 基于稀疏图结构的深度无监督图像检索方法 | |
CN115131760B (zh) | 一种基于改进特征匹配策略的轻量级车辆追踪方法 | |
CN112308825B (zh) | 一种基于SqueezeNet的农作物叶片病害识别方法 | |
CN113469186A (zh) | 一种基于少量点标注的跨域迁移图像分割方法 | |
CN114913379B (zh) | 基于多任务动态对比学习的遥感图像小样本场景分类方法 | |
CN109902697A (zh) | 多目标检测方法、装置及移动终端 | |
CN112150497A (zh) | 基于二值神经网络的局部激活方法与系统 | |
CN114049527B (zh) | 基于在线协作与融合的自我知识蒸馏方法与系统 | |
CN111814462B (zh) | 基于动态正则化的高效终身关系提取方法及系统 | |
CN117216668A (zh) | 一种基于机器学习的数据分类分级处理方法和系统 | |
CN111832435A (zh) | 基于迁移与弱监督的美丽预测方法、装置及存储介质 | |
CN116797830A (zh) | 一种基于YOLOv7的图像风险分类方法及装置 | |
CN116091867A (zh) | 一种模型训练、图像识别方法、装置、设备及存储介质 | |
CN116415144A (zh) | 一种基于循环神经网络的模型压缩和加速方法 | |
CN114266653A (zh) | 集成学习的客户贷款风险预估方法 | |
CN117975204B (zh) | 一种模型训练方法、缺陷检测方法以及相关装置 | |
CN118552907B (zh) | 一种基于优选下采样尺度的周界入侵人员检测方法及系统 | |
CN112668717B (zh) | 一种面向神经网络模型优化的数据处理方法和装置 | |
CN113449817B (zh) | 基于幻影梯度的图像分类隐式模型加速训练方法 | |
CN115841585B (zh) | 一种对点云分割网络进行知识蒸馏的方法 | |
CN117576471A (zh) | 一种引入局部特征对齐和原型修正机制的少样本图像分类方法及装置 | |
CN118152897A (zh) | 敏感信息识别模型的训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |