CN113590748A - 基于迭代网络组合的情感分类持续学习方法及存储介质 - Google Patents
基于迭代网络组合的情感分类持续学习方法及存储介质 Download PDFInfo
- Publication number
- CN113590748A CN113590748A CN202110853228.5A CN202110853228A CN113590748A CN 113590748 A CN113590748 A CN 113590748A CN 202110853228 A CN202110853228 A CN 202110853228A CN 113590748 A CN113590748 A CN 113590748A
- Authority
- CN
- China
- Prior art keywords
- network
- combination
- original
- parameters
- fine tuning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 230000008451 emotion Effects 0.000 title claims abstract description 44
- 230000009466 transformation Effects 0.000 claims description 50
- 238000010606 normalization Methods 0.000 claims description 38
- 238000012549 training Methods 0.000 claims description 25
- 238000006243 chemical reaction Methods 0.000 claims description 15
- 238000013140 knowledge distillation Methods 0.000 claims description 13
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 5
- 238000000844 transformation Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 230000008014 freezing Effects 0.000 claims description 4
- 238000007710 freezing Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 21
- 238000013145 classification model Methods 0.000 description 9
- 230000007246 mechanism Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 206010027175 memory impairment Diseases 0.000 description 4
- 239000002131 composite material Substances 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 239000004744 fabric Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000007430 reference method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了基于迭代网络组合的情感分类持续学习方法及存储介质,本申请提出的方法线性组合原始网络和微调网络,对中间网络进行权重组合参数的初始化;并基于原始组合参数、微调组合参数和组合初始化参数重训练中间网络,得到优化权重组合参数;将中间网络等价转换为最终组合网络,该最终组合网络在学习下一个新任务时作为新的原始网络;该优化权重组合参数作为下一个新任务原始网络的原始组合参数。本申请公开的基于情感分类持续学习方法在不增加网络规模下,避免了BERT模型在情感分类持续学习过程中对先前的知识发生灾难性遗忘的问题。
Description
技术领域
本申请涉及基于文本情感分类技术领域,具体是基于迭代网络组合的情感分类持续学习方法及存储介质。
背景技术
预训练语言模型,如GPT,BERT,XLNet等,已被提议并应用于许多自然语言处理任务,包括情感分类任务。而BERT最初是为了从未标记的文本中预训练深度双向表示,通过联合使用所有层的左、右上下文进行预测。
然而,当BERT模型被运用于情感分类任务的持续学习时,主要存在以下几个方面的技术缺陷:其一、舍弃了已经花费大量时间训练的旧情感分类模型;其二、旧情感分类模型和旧任务的数据需要循环不断地进行存储,占用大量的存储资源;三、如果再次使用之前训练好的旧情感分类模型来适更新后的数据时,会使模型对旧领域的任务出现灾难性遗忘。
有鉴于此,提供一种在不增加网络规模的情况下,能够保留原始网络性能,加快后续任务的学习进度的迭代网络组合的情感分类模型的学习方法成为必要。
发明内容
为了能够保留原始网络性能,在不增加网络规模的情况下,加快后续任务的持续学习效率,本申请提供一种基于迭代网络组合的情感分类持续学习方法及存储介质。
本申请提供的一种基于迭代网络组合的情感分类持续学习方法及存储介质采用如下的技术方案:包括以下步骤:
将来自于多个数据源的训练数据以BERT为网络模型,建立原始网络;当获取到需要进行文本信息情感分类的新任务时;
以BERT为网络模型,将原始网络适应新任务,得到微调网络;
获取原始网络中的原始组合参数,并训练微调网络获取微调组合参数;
冻结原始组合参数和微调组合参数;
线性组合原始网络和微调网络,得到中间网络;
对中间网络进行权重组合参数的初始化,获得组合初始化参数;
获取中间网络中的原始组合参数和微调组合参数;
基于原始组合参数、微调组合参数和组合初始化参数重训练中间网络,得到优化权重组合参数;
将中间网络等价转换为最终组合网络,该最终组合网络在学习下一个新任务时作为新的原始网络;该优化权重组合参数作为下一个新任务原始网络的原始组合参数。
本申请提出的一种基于迭代网络组合的情感分类的持续学习方法,将中间网络的结构组合等价转换成权重组合参数的形式,得到最终组合网络,使得最终组合网络和原始网络保持相同结构和规模,从而可以将最终组合网络作为下一个新任务学习时的原始网络,基于原始网络的下一个最终组合网络也能再作为原始网络,依此循环,形成网络的持续学习。在网络组合等过程中,始终保存着原始网络、微调网络以及最终组合网络的权重组合参数,基于它的迭代网络组合的情感分类模型的持续学习过程中。每一次的新任务,基于在先原始网络,避免了对原始网络进行重复的训练,提高了网络训练效率,节约网络资源,本申请对网络模型进行了转换,保持相同的网络规模和网络模型,在网络的持续学习过程中,保证了持续学习能力,使得本申请具有明显的优越性。
本申请对原始网络和微调网络都采用BERT模型作为主干模型。给定不断学习的任务t1至tn-1的原始网络Mo和新接受的任务tn训练的得到的微调网络Mf。旧任务[t1,...,tn-1]以及新任务tn之间获得一个统一的网络,将原始网络和微调网络的每一个线性变换和层归一化线性地组合起来,得到中间网络Msc。
进一步地,步骤线性组合原始网络和微调网络中,通过线性组合中的残差运算来连接原始网络和微调网络,残差运算的结构组合线性变换LTsc的变换式为:
LTsc(x)=LTo(x)+αo⊙LTo(x)+αf⊙LTf(x)
=Wox+αo⊙(Wox)+αf⊙(Wfx);
通过线性组合原始网络和微调网络得到中间网络,得到的中间网络包括原始网络线性变换权重参数αo和微调网络线性变换权重参数αf,原始网络线性变换权重参数αo和微调网络线性变换权重参数αf组合线性变换的中间网络参数(αo,αf);
其中,输入特性为LTo和LTf分别为原始网络和微调网络的线性变换的输出式;⊙表示元素级别的乘积;dj表示线性变换的输出维数,di表示线性变换的输入维数;Wo表示线性变换LTo权重参数,Wf表示线性变换LTf权重参数,Wo,αo,αf为权重组合参数,
进一步地,在步骤线性组合原始网络和微调网络中,通过结构组合层归一化中的均值和方差运算来连接原始网络和微调网络,其结构组合层归一化LNsc表示为:
通过层归一化组合原始网络和微调网络得到中间网络;层归一化组合得到的中间网络包括原始网络层归一化权重参数βo和微调网络线层归一化重参数βf,层归一化权重参数βo和微调网络线层归一化重参数βf组合为层归一化后的中间网络参数(βo,βf);
其中,LNo为在原始网络的层归一化运算;LNf表示在微调网络的层归一化运算;go是原始网络中层归一化仿射变换的可学习参数,gf是微调网络中层归一化仿射变换的可学习参数,go,μ是输入隐藏表示x的平均值,σ是输入隐藏表示x的标准偏差,μ,βo,βf为权重组合参数,
线性组合的网络与中间网络是等价的,并且与原始网络具有相同的网络结构;将原始网络和微调网络的每一个线性变换和层归一化线性地组合起来,得到它们之间的中间网络。主要目的在于对中间网络进行额外的再训练,确保它能正常工作,而未对原始网络的参数产生任何影响,防止原始网络灾难性遗忘在先运算结果等。线性组合得到的中间网络主要用途包括以下二个方面,其一,对中间网络的再训练过程中的数据提供,其二,转换成最终的组合网络。
进一步地,在步骤线性组合原始网络和微调网络中,包括分别通过如下算法获取数据:
通过获取原始网络和中间网络中的数据,节约了原已经进行运算的网络再运算,节约了网络资源,提高了网络组合效率,并将获取到的数据,组合得到中间网络。
为了在不出现灾难性遗忘的情况下,使中间网络Msc(结构组合网络)同时掌握旧任务(t1,…,tn-1)和新任务tn,将权重参数αo,αf,βo和βf组合起来。具体地,从两方面来优化中间网络:其一、为了克服旧任务的灾难性遗忘,引入了LwF损失促使中间网络Msc模拟原始网络在所有旧任务上的输出。其二、确保新任务的表现,使用有监督方式IMM运算,对硬标签采用交叉熵损失并且对软标签采用知识蒸馏损失以获得微调网络中的信息。
在步骤重训练中间网络中,对原始网络和中间网络进行无遗忘学习运算,交叉熵损失运算和知识蒸馏损失运算,并对优化后权重组合参数进行衰减运算,该训练的完整目标函数为:
通过重训练中间网络,得到优化后权重组合参数(αo,αf,βo,βf):
其中,(αo,αf,βo,βf)表示优化权重组合参数;n-1表示旧任务的数量;λ1和λ2是控制损失贡献的两个超参数;为LwF损失运算;为交叉熵损失运算;为知识蒸馏损失运算,Msc为中间网络;Mo为原始网络,Mf为微调网络。
本申请最相关的持续学习方法有两个,分别为和IMM方法,其中遗忘学习运算借用了知识蒸馏的技术来从原始网络中获取旧任务的信息来维持原有任务的信息,IMM的方法将原始网络和微调网络进行组合,从而获取到旧任务和新任务的信息,从而组成中间网络。
为了在训练结束后使组合网络的规模与原始网络的规模保持一致,本申请提出了一种将中间网络(结构组合网络)转化为最终组合网络的网络转换机制Mpc(参数组合网络)。转换后的最终组合网络和原始网络拥有同样的网络规模。节约了网络资源,提高了运算质量。
本发明将IMM中组合网络的思路加以优化并应用到BERT模型为基础的网络当中,结合遗忘学习运算中所运用的知识蒸馏技术来对组合网络进行再训练,解决IMM中无法达到最优性能的问题,最终实现基于BERT模型的持续学习,来解决情感分类任务中的持续学习难点。不仅利用网络组合的思路解决了持续学习遗忘学习运算方法中无法产生最优性能的问题,而且融合了再训练的机制解决持续学习IMM方法中无法让组合的比例达到最优情况的问题。
步骤中间网络等价转换为最终组合网络中,包括对原始网络的转换和中间网络的转换,其中原始网络的转换通过将中间网络中的原始网络部分结构组合线性变换为标准线性,将中间网络中的微信网络部分结构组合层归一化转换为标准层归一化。
进一步地,在步骤中间网络等价转换为最终组合网络中,将中间网络的结构组合线性变换LTsc转换为标准线性公式为:
LTsc(x)=Wox+αo⊙(Wox)+αf⊙(Wfx)
=LTpc(x)=Wpcx
通过线性变换得到最终组合网络;
为了在训练结束后使组合网络的规模与原始网络的规模保持一致,本申请提出了一种将中间网络(结构组合网络)转化为最终组合网络Mpc(参数组合网络)的网络转换机制。转换后的最终组合网络和原始网络拥有同样的网络规模,该网络机制的转换节约了网络资源,提高了运算质量。
进一步地,在步骤中间网络转换为最终组合网络中,将结构组合层归一化转换为标准层归一化公式为:
LNsc(x)=go⊙h+βo⊙(go⊙h)+βf⊙(gf⊙h)
=LNpc(x)=gpc⊙h
通过标准层归一化转换得到最终组合网络;
为了在训练结束后使组合网络的规模与原始网络的规模保持一致,本申请提出了一种将中间网络(结构组合网络)转化为最终组合网络Mpc(参数组合网络)的网络转换机制。转换后的最终组合网络和原始网络拥有同样的网络规模。节约了网络资源,提高了运算质量。
将中间网络Mpc视为新一轮任务tn+1学习中的原始网络,如此一来,整个方案就可以不断的迭代进行组合,再训练,转换三个过程来实现持续学习。
进一步地,步骤基于原始组合参数、微调组合参数和组合初始化参数重训练中间网络中,包括对优化权重组合参数施加L1衰减。
在网络重训练过程中,对优化权重组合参数进行衰减运算,目的是让组合参数中的值更多的接近于0,使组合网络结构在残差的影响下保留更多的原始网络Mo的信息。
本申请还提供了一种计算机可读存储介质,存储有能够被处理器加载并执行的一种基于迭代网络组合的情感分类持续学习方法的计算机程序。
本申请还提供了一种电子设备,包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行一种基于迭代网络组合的情感分类持续学习方法的计算机程序。
综上所述,申请提供的一种一种基于迭代网络组合的情感分类持续学习方法及其存储介质,以预训练模型BERT为骨干模型,对网络进行训练得到原始网络,将原始网络适应到新任务中得到微调网络网络,线性组合原始网络和中间网络,并将中间网络的结构组合等价转换成权重组合参数的形式,得到最终组合网络,使得最终组合网络和原始网络保持相同结构和规模,从而可以将最终组合网络作为下一个新任务学习时的原始网络,基于本原始网络的下一个最终组合网络也能再作为原始网络,依此不断循环,使得网络可以持续不断地学习新任务。在网络组合等过程中,始终保存着原始网络、微调网络以及最终组合网络的权重组合参数。基于前述的迭代网络组合的情感分类模型的持续学习过程中,每一次的新任务,均可基于在先原始网络,避免了对原始网络进行重复的训练,提高了网络训练效率,节约网络资源。对中间网络进行了转换,保持原始网络与最终组合网络相同的网络规模和网络模型,在网络的持续学习过程中,保证了持续学习性能和资源成本优势,使得本申请具有明显的优越性。
附图说明
图1为本申请的一种实施例的方法示意框图;
图2本申请的实验数据图;
附图标记说明:1、最终组合网络;2、原始网络;3、中间网络;4、微调网络。
具体实施方式
本申请提出的基于迭代网络组合的情感分类持续学习方法,包括如下步骤:将来自于多个数据源的训练数据以BERT为网络模型,建立原始网络2;当获取到需要进行文本信息情感分类的新任务时;以BERT为网络模型,将原始网络2适应新任务,得到微调网络4;获取原始网络2中的原始组合参数,并训练微调网络4获取微调组合参数;冻结原始组合参数和微调组合参数;线性组合原始网络2和微调网络4,得到中间网络3;对中间网络3进行权重组合参数的初始化,获得组合初始化参数;获取中间网络3中的原始组合参数和微调组合参数;基于原始组合参数、微调组合参数和组合初始化参数重训练中间网络3,得到优化权重组合参数;将中间网络3等价转换为最终组合网络1,该最终组合网络1在学习下一个新任务时作为新的原始网络2;该优化权重组合参数作为下一个新任务原始网络2的原始组合参数。
本申请提出的基于迭代网络组合学习新任务的实现方法,将原始网络2和微调网络4的每一个线性变换和层归一化线性地组合起来,得到它们之间的中间网络3(结构网络)。再对中间网络3进行额外的再训练,以确保中间网络3能正常工作,冻结原始网络2的参数,防止原始网络2参数发生灾难性遗忘。并且,将中间网络3转换成最终组合网络1,该最终组合网络1与中间网络3是等价的,并且与原始网络2具有相同的网络结构。
如图1所示,线性组合原始网络2和微调网络4。原始网络2和微调网络4都采用BERT模型作为主干模型。给定原始网络Mo中,已经完成学习的任务包括t1至tn-1,和接受过新任务tn训练的微调网络4Mf,在旧任务[t1,...,tn-1]以及新任务tn之间获得一个统一的中间网络该中间网络3由原始网络2和微调网络4的每一个线性变换和层归一化线性地组合起来。
LTsc(x)=LTo(x)+αo⊙LTo(x)+αf⊙LTf(x)
=Wox+αo⊙(Wox)+αf⊙(wfx)
BERT模型中的层归一化是为了应对线性变换的输出分布。为了缓解线性组合后的不一致性,本申请提出了中间网络3的层归一化LNsc时,对原始网络2的层归一化(即LNo)和微调网络4的层归一化(即LNf)进行组合。与批量归一化相比,本申请提出的中间网络3的层归一化只计算局部的均值和方差。其中,中间网络3层归一化公式化如下:
为了在不出现灾难性遗忘的情况下,使中间网络(结构组合网络)同时掌握旧任务(t1,…,tn-1)和新任务tn,通过网络再训练来优化组合权重αo,αf,βo和βf。从两方面来优化中间网络3:(1)为了克服旧任务的灾难性遗忘,本申请引入了LwF损失它可以促使中间网络模拟原始网络2在所有旧任务上的输出。(2)为了确保新任务的表现,本申请使用有监督的方式对硬标签采用交叉熵损失并且对软标签采用知识蒸馏损失以获得微调网络4中的信息。重训练过程的完整目标函数如下:
其中n-1表示旧任务的数量。λ1和λ2是控制损失贡献的两个超参数。本申请对组合参数(αo,αf,βo,βf)应用L1衰减,目的是让组合参数中的值更多的接近于0,使组合网络结构在残差的影响下保留更多的原始网络的信息。为了保证结构组合网络的初始状态能平等地考虑原始网络2Mo以及微调网络初始化αo和βo的值为-0.5,αf和βf为0.5。另外,Mo和Mf的模型参数在本申请的再训练过程中被冻结了,避免原始网络2和微调网络4出现旧任务灾难性遗忘的情况。
经过再训练阶段,得到一个结构组合网络Msc处理任务[t1,…,tn]。为了在训练结束后使组合网络的规模与原始网络2的规模保持一致,提出了一种将中间网络3转化为最终组合网络1的网络转换机制Mpc。转换后的最终组合网络1和原始网络2拥有同样的网络规模。最终的组合网络Mpc可视为下一次迭代中新的原始网络2来学习下一个新任务。压缩了结构组合线性结构LTsc转化为标准线性变换形式,其定义如下:
进一步进,将结构组合层规一化转换为:
当网络转换完成之后,本申请将Mpc视为新一轮任务tn+1学习中的原始网络2,如此一来,整个方案就可以不断的迭代进行组合,再训练,转换三个过程来实现持续学习。
基于残差连接的思路,提出了一种有效的结构组合方式,可以在保存更多原始网络2信息的情况下,对原始网络2和微调网络4进行结构组合,得到中间网络3。
对中间网络3进行重训练以获得更优的性能。其中使用LwF损失获取原始网络2中的信息以保护旧任务的性能;使用交叉熵损失学习新任务和使用知识蒸馏损失获取微调网络4中的信息,以更好的学习新任务;对(αo,αf,βo,βf)施加L1衰减,使得中间网络3可以更好的保留原始网络2的信息。
等价的将中间网络3转换成最终组合网络1,最终组合网络1和原始网络2保持相同的网络结构,从而可以在学习下一个新任务时视为新的原始网络2。
迭代网络组合在学习新任务时,线性组合原始网络2和微调网络4。将原始网络2和微调网络4的每一个线性变换和层归一化线性地组合起来,得到它们之间的中间网络3。原始网络2和微调网络4进行权重组合参数初始化;训练原始网络2和微调网络4,得到新的原始网络2和微调网络4权重组合参数。对中间网络3进行额外的再训练,以确保它能正常工作,对原始网络2的参数进行冻结,能避免灾难性遗忘。学习新的情感分类模型,将中间网络3转换成最终的组合网络,该组合网络与中间网络3是等价的,并且与原始网络2具有相同的网络结构。
线性组合原始网络2和微调网络4,得到中间网络3,对中间网络3引入LwF损失促使中间网络3模拟原始网络2在所有旧任务上的输出。在新旧模型的不断学习过程中,旧任务t1至tn-1,为原始网络2Mo;接受到的新任务tn被训练为的新的微调网络4Mf,在旧任务[t1,...,tn-1]以及新任务tn之间获得一个统一的网络,本申请将原始网络2和微调网络4的每一个线性变换和层归一化线性地组合起来,得到一个新的中间网络(结构组合网络)。对中间网络3引入LwF损失促使中间网络3模拟原始网络2在所有旧任务上的输出。使中间网络同时掌握旧任务(t1,…,tn-1)和新任务tn,通过训练该中间网络3,得到权重组合参数αo,αf,βo和βf参数。
为了确保新旧网络权重的合理化,通过应用LwF技术对新旧网络均进行交叉熵损失和知识蒸馏损失运算。对情感分类新任务中的软标签采用知识蒸馏运算,获取微调网络4中的信息;对原始网络2中的软标签采用知识蒸馏运算,获取微调网络4中的信息。对情感分类新任务中的硬标签采用交叉熵运算,获取微调网络4中的信息;对原始网络2中的硬标签采用交叉熵运算,获取微调网络4中的信息。上述运算是可选择性地同时或部分进行运算,可完全根据数据需求而定。
对原始网络2Mo、微调网络4、中间网络3以及最终组合网络之一个及以上的网络以BERT为骨干模型的。
本申请提出的一种基于迭代网络组合的情感分类的持续学习方法,将旧任务的原始网络2和新任务的微调网络4相结合,保留在先任务的任务性能,同时在不增加网络规模的情况下加快后续任务的学习进度。巧妙地将结构角度线性组合得到的中间网络3转换回了参数组合的形式,与原始网络2的结构和规模保持一致,这意味着网络的容量在持续学习过程中不会随着任务的增加而增加。
为了验证本申请的效果,发明人还进行了以下试验研究:
数据集:为了验证本申请技术方案(以下简称为CSIC)的有效性,对16个任务的情绪分类数据集进行了对比测试,包括从电影评论(IMDB,MR)和从Amazon收集的14个产品评论数据集。每个产品分为正面和负面两个方向的情感。对于每个数据集,原始训练集和测试集中的样本数分别约为1600和400。本申请将原始训练集随机分为训练集(87.5%)和验证集(12.5%)。
基准方法:首先,将CSIC与三种广泛使用的文本分类模型:BiLSTM、TextCNN和BERT进行了比较。其次,还将CSIC与流行的持续学习方法进行了比较,包括LwF、Mean IMM。此外,还报告了基本模型在访问任务后有选择地重新初始化其参数时获得的结果(表示为Re-init),它为每个任务保存了一个单独的模型,而不考虑连续学习场景。为了公平比较,用BERT模型代替了CNNs的原始模型。
具体细节:本申请选择BERT-base模型作为骨干网络,使用AdamW优化算法来训练本申请的模型,权重衰减设为1e-8,批处理大小设置为16,训练微调网络4过程中的BERT模型学习速率设为5e-5,重新训练中间网络3的学习速率设置为1e-3。此外,本申请将超参数λ1和λ2分别设置为0.3和1e-2。需要说明的是,此处的超参数λ1和λ2还可以是:0.1和5e-3;0.5和5e-2,等等。此时LwF和KD的softmax层中的温度因子设为2。为了保证实验结果的可靠性和稳定性,本申请用三种不同的种子对每种方法运行了三次,并报告了平均值。
CSIC和基准方法在16个情绪分类任务的表现(%),具体实验数据如下表所示:
结合图2,在访问所有16个任务的最终评估结果中,观察到普通分类方法(即BilSTM、TextCNN、BERT)的性能相较于持续学习方法(即LwF、Mean-IMM和CSIC)的性能已经处于落后地位。相较于本申请,传统的情绪分类方法会导致灾难性遗忘等技术问题,有不可逾越的鸿沟。
如图1和图2所示,在几项持续学习方法中,CSIC表现的比LwF和Mean-IMM也更有优势;靠后的几个任务中,总体的平均准确率高出LwF和Mean-IMM 2.5个百分点以上,且在不断的持续学习任务中,性能差异越明显。
如图2所示,本申请对所有模型在持续学习下的中间状态做了更详细的展示。结果显示传统的BERT在初期性能还算不错,但是在第5个任务开始出现明显下滑,进一步表明了BERT会在持续学习中发生灾难性遗忘。而本申请在持续学习过程中,表现出了很好的抗遗忘性,特别是在第6个任务之后,逐渐与其他两个持续学习方法拉开距离,展现出本技术方案在持续学习过程中,随着学习任务的不断增多,优势明显。
结论,为了公平起见,本申请对比BERT,IMM以及LwF方法时,使用BERT模型替换了IMM和LwF中所使用的CNN结构。实验结果显示,本申请在持续学习任务中,不会产生灾难性遗忘现象,十分有效的解决BERT在学习几个领域的情感分类任务之后就会出现的灾难性遗忘问题;在本实验中,发现IMM方法所提出的组合方式在任务较少时有着超出本申请的表现,但随着任务的增多,IMM方法在新任务的学习上逐渐变得困难,性能大幅度下降。而本申请在持续学习过程中,随着任务量越越多时,相较于当下其它较优秀的几类情感分类模型,表现得更为优异,本申请的性能大幅度超过IMM方法;相较于LwF方法,本申请得益于所提出的网络组合的思路,将原始网络和微调网络进行组合,并冻组合权重参数,并对组合权重参数进行再优化和存储于最终组合网络中,避免了大师的重复运算,从而保证了本申请的性能优势,在第12次任务后,本申请的准确率始终保持优于LwF大约2%左右的性能。
以上均为本申请的较佳实施例,并非依此限制本申请的保护范围,故:凡依本申请的方法所做的等效变化,均应涵盖于本申请的保护范围之内。
Claims (10)
1.一种基于迭代网络组合的情感分类持续学习方法,其特征在于,包括以下步骤:
将来自于多个数据源的训练数据以BERT为网络模型,建立原始网络;当获取到需要进行文本信息情感分类的新任务时;
以BERT为网络模型,将原始网络适应新任务,得到微调网络;
获取原始网络中的原始组合参数,并训练微调网络获取微调组合参数;
冻结原始组合参数和微调组合参数;
线性组合原始网络和微调网络,得到中间网络;
对中间网络进行权重组合参数的初始化,获得组合初始化参数;
获取中间网络中的原始组合参数和微调组合参数;
基于原始组合参数、微调组合参数和组合初始化参数重训练中间网络,得到优化权重组合参数;
将中间网络等价转换为最终组合网络,该最终组合网络在学习下一个新任务时作为新的原始网络;该优化权重组合参数作为下一个新任务原始网络的原始组合参数。
2.根据权利要求1所述的基于迭代网络组合的情感分类持续学习方法,其特征在于,步骤线性组合原始网络和微调网络中,通过结构线性组合中的残差运算来连接原始网络和微调网络,结构组合线性变换LTsc的变换式为:
LTsc(x)=LTo(x)+αo⊙LTo(x)+αf⊙LTf(x)
=Wox+αo⊙(Wox)+αf⊙(Wfx);
通过线性组合原始网络和微调网络得到中间网络,得到的中间网络包括原始网络线性变换权重参数αo和微调网络线性变换权重参数αf,原始网络线性变换权重参数αo和微调网络线性变换权重参数αf组合得到线性变换的中间网络参数(αo,αf);
3.根据权利要求2所述的基于迭代网络组合的情感分类持续学习方法,其特征在于,在步骤线性组合原始网络和微调网络中,通过结构组合层归一化中的均值和方差运算来连接原始网络和微调网络,其结构组合层归一化LNsc转换式为:
通过层归一化组合原始网络和微调网络得到中间网络;层归一化组合得到的中间网络包括原始网络层归一化权重参数βo和微调网络线层归一化重参数βf,层归一化权重参数βo和微调网络线层归一化重参数βf组合为层归一化后的中间网络参数(βo,βf);
8.根据权利要求7所述的基于迭代网络组合的情感分类持续学习方法,其特征在于,步骤基于原始组合参数、微调组合参数和组合初始化参数重训练中间网络中,包括对优化权重组合参数施加L1衰减。
9.一种计算机可读存储介质,其特征在于,存储有能够被处理器加载并执行如权利要求1至8中任一种基于迭代网络组合的情感分类持续学习方法的计算机程序。
10.一种电子设备,其特征在于,包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行如权利要求1至8中任一种基于迭代网络组合的情感分类持续学习方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110853228.5A CN113590748B (zh) | 2021-07-27 | 2021-07-27 | 基于迭代网络组合的情感分类持续学习方法及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110853228.5A CN113590748B (zh) | 2021-07-27 | 2021-07-27 | 基于迭代网络组合的情感分类持续学习方法及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113590748A true CN113590748A (zh) | 2021-11-02 |
CN113590748B CN113590748B (zh) | 2024-03-26 |
Family
ID=78250756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110853228.5A Active CN113590748B (zh) | 2021-07-27 | 2021-07-27 | 基于迭代网络组合的情感分类持续学习方法及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113590748B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117435737A (zh) * | 2023-11-10 | 2024-01-23 | 北方工业大学 | 一种基于自适应参数更新的终身情感分类方法 |
CN118468928A (zh) * | 2024-07-12 | 2024-08-09 | 中国电子科技集团公司第三十研究所 | 一种安全领域大模型微调方法、装置及可读储存介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110032646A (zh) * | 2019-05-08 | 2019-07-19 | 山西财经大学 | 基于多源领域适应联合学习的跨领域文本情感分类方法 |
US20200104687A1 (en) * | 2018-09-27 | 2020-04-02 | Google Llc | Hybrid neural architecture search |
WO2020095321A2 (en) * | 2018-11-06 | 2020-05-14 | Vishwajeet Singh Thakur | Dynamic structure neural machine for solving prediction problems with uses in machine learning |
US20200184278A1 (en) * | 2014-03-18 | 2020-06-11 | Z Advanced Computing, Inc. | System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform |
CN111680160A (zh) * | 2020-06-16 | 2020-09-18 | 西北师范大学 | 一种用于文本情感分类的深度迁移学习方法 |
CN112559738A (zh) * | 2020-11-25 | 2021-03-26 | 中国科学院深圳先进技术研究院 | 基于自适应不确定性正则化的情感分类持续学习方法 |
-
2021
- 2021-07-27 CN CN202110853228.5A patent/CN113590748B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200184278A1 (en) * | 2014-03-18 | 2020-06-11 | Z Advanced Computing, Inc. | System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform |
US20200104687A1 (en) * | 2018-09-27 | 2020-04-02 | Google Llc | Hybrid neural architecture search |
WO2020095321A2 (en) * | 2018-11-06 | 2020-05-14 | Vishwajeet Singh Thakur | Dynamic structure neural machine for solving prediction problems with uses in machine learning |
CN110032646A (zh) * | 2019-05-08 | 2019-07-19 | 山西财经大学 | 基于多源领域适应联合学习的跨领域文本情感分类方法 |
CN111680160A (zh) * | 2020-06-16 | 2020-09-18 | 西北师范大学 | 一种用于文本情感分类的深度迁移学习方法 |
CN112559738A (zh) * | 2020-11-25 | 2021-03-26 | 中国科学院深圳先进技术研究院 | 基于自适应不确定性正则化的情感分类持续学习方法 |
Non-Patent Citations (1)
Title |
---|
杨玉亭等: ""面向上下文注意力联合学习网络的方面级情感分类模型"", 《模式识别与人工智能》, 15 August 2020 (2020-08-15) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117435737A (zh) * | 2023-11-10 | 2024-01-23 | 北方工业大学 | 一种基于自适应参数更新的终身情感分类方法 |
CN118468928A (zh) * | 2024-07-12 | 2024-08-09 | 中国电子科技集团公司第三十研究所 | 一种安全领域大模型微调方法、装置及可读储存介质 |
CN118468928B (zh) * | 2024-07-12 | 2024-09-20 | 中国电子科技集团公司第三十研究所 | 一种安全领域大模型微调方法、装置及可读储存介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113590748B (zh) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kemker et al. | Measuring catastrophic forgetting in neural networks | |
CN107729999A (zh) | 考虑矩阵相关性的深度神经网络压缩方法 | |
US20200167659A1 (en) | Device and method for training neural network | |
CN111291836A (zh) | 一种生成学生网络模型的方法 | |
CN107689224A (zh) | 合理使用掩码的深度神经网络压缩方法 | |
CN110941734B (zh) | 基于稀疏图结构的深度无监督图像检索方法 | |
CN113590748A (zh) | 基于迭代网络组合的情感分类持续学习方法及存储介质 | |
CN108876044B (zh) | 一种基于知识增强神经网络的线上内容流行度预测方法 | |
CN111651576B (zh) | 一种基于迁移学习的多轮阅读理解方法 | |
CN111723914A (zh) | 一种基于卷积核预测的神经网络架构搜索方法 | |
US20190138929A1 (en) | System and method for automatic building of learning machines using learning machines | |
CN104504442A (zh) | 神经网络优化方法 | |
CN110929798A (zh) | 基于结构优化稀疏卷积神经网络的图像分类方法及介质 | |
CN112766496B (zh) | 基于强化学习的深度学习模型安全性保障压缩方法与装置 | |
CN115422369B (zh) | 基于改进TextRank的知识图谱补全方法和装置 | |
CN111123894A (zh) | 一种基于lstm和mlp结合的化工过程故障诊断方法 | |
CN113935489A (zh) | 基于量子神经网络的变分量子模型tfq-vqa及其两级优化方法 | |
CN113962262B (zh) | 一种基于连续学习的雷达信号智能分选方法 | |
KR20240034804A (ko) | 자동 회귀 언어 모델 신경망을 사용하여 출력 시퀀스 평가 | |
Liu et al. | Efficient hyperparameters optimization through model-based reinforcement learning and meta-learning | |
Smart et al. | On the mapping between Hopfield networks and restricted Boltzmann machines | |
CN116992942B (zh) | 自然语言模型优化方法、装置、自然语言模型、设备和介质 | |
CN113836174A (zh) | 基于强化学习dqn算法的异步sql连接查询优化方法 | |
CN112381225A (zh) | 优化未来性能的推荐系统重训练方法 | |
CN117009674A (zh) | 融合数据增强和对比学习的云原生api推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |