CN113590748B - 基于迭代网络组合的情感分类持续学习方法及存储介质 - Google Patents
基于迭代网络组合的情感分类持续学习方法及存储介质 Download PDFInfo
- Publication number
- CN113590748B CN113590748B CN202110853228.5A CN202110853228A CN113590748B CN 113590748 B CN113590748 B CN 113590748B CN 202110853228 A CN202110853228 A CN 202110853228A CN 113590748 B CN113590748 B CN 113590748B
- Authority
- CN
- China
- Prior art keywords
- network
- combination
- original
- parameters
- fine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 230000008451 emotion Effects 0.000 title claims abstract description 45
- 230000009466 transformation Effects 0.000 claims description 55
- 238000010606 normalization Methods 0.000 claims description 34
- 238000012549 training Methods 0.000 claims description 29
- 238000006243 chemical reaction Methods 0.000 claims description 19
- 238000013140 knowledge distillation Methods 0.000 claims description 14
- 238000013145 classification model Methods 0.000 claims description 10
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 7
- 238000009966 trimming Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 230000008014 freezing Effects 0.000 claims description 4
- 238000007710 freezing Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 3
- 238000000844 transformation Methods 0.000 claims 1
- 230000001131 transforming effect Effects 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 19
- 230000007246 mechanism Effects 0.000 description 6
- 206010027175 memory impairment Diseases 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000007430 reference method Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了基于迭代网络组合的情感分类持续学习方法及存储介质,本申请提出的方法线性组合原始网络和微调网络,对中间网络进行权重组合参数的初始化;并基于原始组合参数、微调组合参数和组合初始化参数重训练中间网络,得到优化权重组合参数;将中间网络等价转换为最终组合网络,该最终组合网络在学习下一个新任务时作为新的原始网络;该优化权重组合参数作为下一个新任务原始网络的原始组合参数。本申请公开的基于情感分类持续学习方法在不增加网络规模下,避免了BERT模型在情感分类持续学习过程中对先前的知识发生灾难性遗忘的问题。
Description
技术领域
本申请涉及基于文本情感分类技术领域,具体是基于迭代网络组合的情感分类持续学习方法及存储介质。
背景技术
预训练语言模型,如GPT,BERT,XLNet等,已被提议并应用于许多自然语言处理任务,包括情感分类任务。而BERT最初是为了从未标记的文本中预训练深度双向表示,通过联合使用所有层的左、右上下文进行预测。
然而,当BERT模型被运用于情感分类任务的持续学习时,主要存在以下几个方面的技术缺陷:其一、舍弃了已经花费大量时间训练的旧情感分类模型;其二、旧情感分类模型和旧任务的数据需要循环不断地进行存储,占用大量的存储资源;三、如果再次使用之前训练好的旧情感分类模型来适更新后的数据时,会使模型对旧领域的任务出现灾难性遗忘。
有鉴于此,提供一种在不增加网络规模的情况下,能够保留原始网络性能,加快后续任务的学习进度的迭代网络组合的情感分类模型的学习方法成为必要。
发明内容
为了能够保留原始网络性能,在不增加网络规模的情况下,加快后续任务的持续学习效率,本申请提供一种基于迭代网络组合的情感分类持续学习方法及存储介质。
本申请提供的一种基于迭代网络组合的情感分类持续学习方法及存储介质采用如下的技术方案:包括以下步骤:
将来自于多个数据源的训练数据以BERT为网络模型,建立原始网络;当获取到需要进行文本信息情感分类的新任务时;
以BERT为网络模型,将原始网络适应新任务,得到微调网络;
获取原始网络中的原始组合参数,并训练微调网络获取微调组合参数;
冻结原始组合参数和微调组合参数;
线性组合原始网络和微调网络,得到中间网络;
对中间网络进行权重组合参数的初始化,获得组合初始化参数;
获取中间网络中的原始组合参数和微调组合参数;
基于原始组合参数、微调组合参数和组合初始化参数重训练中间网络,得到优化权重组合参数;
将中间网络等价转换为最终组合网络,该最终组合网络在学习下一个新任务时作为新的原始网络;该优化权重组合参数作为下一个新任务原始网络的原始组合参数。
本申请提出的一种基于迭代网络组合的情感分类的持续学习方法,将中间网络的结构组合等价转换成权重组合参数的形式,得到最终组合网络,使得最终组合网络和原始网络保持相同结构和规模,从而可以将最终组合网络作为下一个新任务学习时的原始网络,基于原始网络的下一个最终组合网络也能再作为原始网络,依此循环,形成网络的持续学习。在网络组合等过程中,始终保存着原始网络、微调网络以及最终组合网络的权重组合参数,基于它的迭代网络组合的情感分类模型的持续学习过程中。每一次的新任务,基于在先原始网络,避免了对原始网络进行重复的训练,提高了网络训练效率,节约网络资源,本申请对网络模型进行了转换,保持相同的网络规模和网络模型,在网络的持续学习过程中,保证了持续学习能力,使得本申请具有明显的优越性。
本申请对原始网络和微调网络都采用BERT模型作为主干模型。给定不断学习的任务t1至tn-1的原始网络Mo和新接受的任务tn训练的得到的微调网络Mf。旧任务[t1,...,tn-1]以及新任务tn之间获得一个统一的网络,将原始网络和微调网络的每一个线性变换和层归一化线性地组合起来,得到中间网络Msc。
进一步地,步骤线性组合原始网络和微调网络中,通过线性组合中的残差运算来连接原始网络和微调网络,残差运算的结构组合线性变换LTsc的变换式为:
LTsc(x)=LTo(x)+αo⊙LTo(x)+αf⊙LTf(x)
=Wox+αo⊙(Wox)+αf⊙(Wfx);
通过线性组合原始网络和微调网络得到中间网络,得到的中间网络包括原始网络线性变换权重参数αo和微调网络线性变换权重参数αf,原始网络线性变换权重参数αo和微调网络线性变换权重参数αf组合线性变换的中间网络参数(αo,αf);
其中,输入特性为LTo和LTf分别为原始网络和微调网络的线性变换的输出式;⊙表示元素级别的乘积;dj表示线性变换的输出维数,di表示线性变换的输入维数;Wo表示线性变换LTo权重参数,Wf表示线性变换LTf权重参数,Wo,/>αo,αf为权重组合参数,/>
进一步地,在步骤线性组合原始网络和微调网络中,通过结构组合层归一化中的均值和方差运算来连接原始网络和微调网络,其结构组合层归一化LNsc表示为:
通过层归一化组合原始网络和微调网络得到中间网络;层归一化组合得到的中间网络包括原始网络层归一化权重参数βo和微调网络线层归一化重参数βf,层归一化权重参数βo和微调网络线层归一化重参数βf组合为层归一化后的中间网络参数(βo,βf);
其中,LNo为在原始网络的层归一化运算;LNf表示在微调网络的层归一化运算;go是原始网络中层归一化仿射变换的可学习参数,gf是微调网络中层归一化仿射变换的可学习参数,go,μ是输入隐藏表示x的平均值,σ是输入隐藏表示x的标准偏差,μ,βo,βf为权重组合参数,/>
线性组合的网络与中间网络是等价的,并且与原始网络具有相同的网络结构;将原始网络和微调网络的每一个线性变换和层归一化线性地组合起来,得到它们之间的中间网络。主要目的在于对中间网络进行额外的再训练,确保它能正常工作,而未对原始网络的参数产生任何影响,防止原始网络灾难性遗忘在先运算结果等。线性组合得到的中间网络主要用途包括以下二个方面,其一,对中间网络的再训练过程中的数据提供,其二,转换成最终的组合网络。
进一步地,在步骤线性组合原始网络和微调网络中,包括分别通过如下算法获取数据:
无遗忘学习运算从中间网络中获取原始网络的输出性能;
知识蒸馏运算从微调网络的软标签中获取微调网络中的信息;
交叉熵运算从微调网络的硬标签中学习新任务的性能;
通过获取原始网络和中间网络中的数据,节约了原已经进行运算的网络再运算,节约了网络资源,提高了网络组合效率,并将获取到的数据,组合得到中间网络。
为了在不出现灾难性遗忘的情况下,使中间网络Msc(结构组合网络)同时掌握旧任务(t1,…,tn-1)和新任务tn,将权重参数αo,αf,βo和βf组合起来。具体地,从两方面来优化中间网络:其一、为了克服旧任务的灾难性遗忘,引入了LwF损失促使中间网络Msc模拟原始网络在所有旧任务上的输出。其二、确保新任务的表现,使用有监督方式IMM运算,对硬标签采用交叉熵损失/>并且对软标签采用知识蒸馏损失/>以获得微调网络中的信息。
在步骤重训练中间网络中,对原始网络和中间网络进行无遗忘学习运算,交叉熵损失运算和知识蒸馏损失运算,并对优化后权重组合参数进行衰减运算,该训练的完整目标函数为:
通过重训练中间网络,得到优化后权重组合参数(αo,αf,βo,βf):
其中,(αo,αf,βo,βf)表示优化权重组合参数;n-1表示旧任务的数量;λ1和λ2是控制损失贡献的两个超参数;为LwF损失运算;/>为交叉熵损失运算;/>为知识蒸馏损失运算,Msc为中间网络;Mo为原始网络,Mf为微调网络。
本申请最相关的持续学习方法有两个,分别为和IMM方法,其中遗忘学习运算/>借用了知识蒸馏的技术来从原始网络中获取旧任务的信息来维持原有任务的信息,IMM的方法将原始网络和微调网络进行组合,从而获取到旧任务和新任务的信息,从而组成中间网络。
为了在训练结束后使组合网络的规模与原始网络的规模保持一致,本申请提出了一种将中间网络(结构组合网络)转化为最终组合网络的网络转换机制Mpc(参数组合网络)。转换后的最终组合网络和原始网络拥有同样的网络规模。节约了网络资源,提高了运算质量。
本发明将IMM中组合网络的思路加以优化并应用到BERT模型为基础的网络当中,结合遗忘学习运算中所运用的知识蒸馏技术来对组合网络进行再训练,解决IMM中无法达到最优性能的问题,最终实现基于BERT模型的持续学习,来解决情感分类任务中的持续学习难点。不仅利用网络组合的思路解决了持续学习遗忘学习运算/>方法中无法产生最优性能的问题,而且融合了再训练的机制解决持续学习IMM方法中无法让组合的比例达到最优情况的问题。
步骤中间网络等价转换为最终组合网络中,包括对原始网络的转换和中间网络的转换,其中原始网络的转换通过将中间网络中的原始网络部分结构组合线性变换为标准线性,将中间网络中的微信网络部分结构组合层归一化转换为标准层归一化。
进一步地,在步骤中间网络等价转换为最终组合网络中,将中间网络的结构组合线性变换LTsc转换为标准线性公式为:
LTsc(x)=Wox+αo⊙(Wox)+αf⊙(Wfx)
=LTpc(x)=Wpcx
通过线性变换得到最终组合网络;
其中,原始网络包括原始组合参数αo,微调网络包括微调组合参数αfLTpc是最终组合网络Mpc的线性变换,表示Mpc的线性变换参数。
为了在训练结束后使组合网络的规模与原始网络的规模保持一致,本申请提出了一种将中间网络(结构组合网络)转化为最终组合网络Mpc(参数组合网络)的网络转换机制。转换后的最终组合网络和原始网络拥有同样的网络规模,该网络机制的转换节约了网络资源,提高了运算质量。
进一步地,在步骤中间网络转换为最终组合网络中,将结构组合层归一化转换为标准层归一化公式为:
LNsc(x)=go⊙h+βo⊙(go⊙h)+βf⊙(gf⊙h)
=LNpc(x)=gpc⊙h
通过标准层归一化转换得到最终组合网络;
其中,LNpc是最终组合网络Mpc的层归一化;是输入特征x层归一化的结果,表示Mpc的层归一化的转换参数。
为了在训练结束后使组合网络的规模与原始网络的规模保持一致,本申请提出了一种将中间网络(结构组合网络)转化为最终组合网络Mpc(参数组合网络)的网络转换机制。转换后的最终组合网络和原始网络拥有同样的网络规模。节约了网络资源,提高了运算质量。
将中间网络Mpc视为新一轮任务tn+1学习中的原始网络,如此一来,整个方案就可以不断的迭代进行组合,再训练,转换三个过程来实现持续学习。
进一步地,步骤基于原始组合参数、微调组合参数和组合初始化参数重训练中间网络中,包括对优化权重组合参数施加L1衰减。
在网络重训练过程中,对优化权重组合参数进行衰减运算,目的是让组合参数中的值更多的接近于0,使组合网络结构在残差的影响下保留更多的原始网络Mo的信息。
本申请还提供了一种计算机可读存储介质,存储有能够被处理器加载并执行的一种基于迭代网络组合的情感分类持续学习方法的计算机程序。
本申请还提供了一种电子设备,包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行一种基于迭代网络组合的情感分类持续学习方法的计算机程序。
综上所述,申请提供的一种一种基于迭代网络组合的情感分类持续学习方法及其存储介质,以预训练模型BERT为骨干模型,对网络进行训练得到原始网络,将原始网络适应到新任务中得到微调网络网络,线性组合原始网络和中间网络,并将中间网络的结构组合等价转换成权重组合参数的形式,得到最终组合网络,使得最终组合网络和原始网络保持相同结构和规模,从而可以将最终组合网络作为下一个新任务学习时的原始网络,基于本原始网络的下一个最终组合网络也能再作为原始网络,依此不断循环,使得网络可以持续不断地学习新任务。在网络组合等过程中,始终保存着原始网络、微调网络以及最终组合网络的权重组合参数。基于前述的迭代网络组合的情感分类模型的持续学习过程中,每一次的新任务,均可基于在先原始网络,避免了对原始网络进行重复的训练,提高了网络训练效率,节约网络资源。对中间网络进行了转换,保持原始网络与最终组合网络相同的网络规模和网络模型,在网络的持续学习过程中,保证了持续学习性能和资源成本优势,使得本申请具有明显的优越性。
附图说明
图1为本申请的一种实施例的方法示意框图;
图2本申请的实验数据图;
附图标记说明:1、最终组合网络;2、原始网络;3、中间网络;4、微调网络。
具体实施方式
本申请提出的基于迭代网络组合的情感分类持续学习方法,包括如下步骤:将来自于多个数据源的训练数据以BERT为网络模型,建立原始网络2;当获取到需要进行文本信息情感分类的新任务时;以BERT为网络模型,将原始网络2适应新任务,得到微调网络4;获取原始网络2中的原始组合参数,并训练微调网络4获取微调组合参数;冻结原始组合参数和微调组合参数;线性组合原始网络2和微调网络4,得到中间网络3;对中间网络3进行权重组合参数的初始化,获得组合初始化参数;获取中间网络3中的原始组合参数和微调组合参数;基于原始组合参数、微调组合参数和组合初始化参数重训练中间网络3,得到优化权重组合参数;将中间网络3等价转换为最终组合网络1,该最终组合网络1在学习下一个新任务时作为新的原始网络2;该优化权重组合参数作为下一个新任务原始网络2的原始组合参数。
本申请提出的基于迭代网络组合学习新任务的实现方法,将原始网络2和微调网络4的每一个线性变换和层归一化线性地组合起来,得到它们之间的中间网络3(结构网络)。再对中间网络3进行额外的再训练,以确保中间网络3能正常工作,冻结原始网络2的参数,防止原始网络2参数发生灾难性遗忘。并且,将中间网络3转换成最终组合网络1,该最终组合网络1与中间网络3是等价的,并且与原始网络2具有相同的网络结构。
如图1所示,线性组合原始网络2和微调网络4。原始网络2和微调网络4都采用BERT模型作为主干模型。给定原始网络Mo中,已经完成学习的任务包括t1至tn-1,和接受过新任务tn训练的微调网络4Mf,在旧任务[t1,...,tn-1]以及新任务tn之间获得一个统一的中间网络该中间网络3由原始网络2和微调网络4的每一个线性变换和层归一化线性地组合起来。
中间网络的结构组合线性变换LTsc,是利用残差连接来线性组合原始网络2的线性变换输出(即LTo)以及微调网络4的线性变换输出(即LTf)。考虑到输入特性/>线性变换的组合结构LTsc构造如下:
LTsc(x)=LTo(x)+αo⊙LTo(x)+αf⊙LTf(x)
=Wox+αo⊙(Wox)+αf⊙(wfx)
其中⊙表示按元素级别的乘积。wo,分别表示线性变换LTo和LTf的权重参数。dj和di表示线性变换的输出维数和输入维数。为了更好的组合这两个网络,引入了两个加权参数αo,/>平衡两个网络的贡献。
BERT模型中的层归一化是为了应对线性变换的输出分布。为了缓解线性组合后的不一致性,本申请提出了中间网络3的层归一化LNsc时,对原始网络2的层归一化(即LNo)和微调网络4的层归一化(即LNf)进行组合。与批量归一化相比,本申请提出的中间网络3的层归一化只计算局部的均值和方差。其中,中间网络3层归一化公式化如下:
其中go,分别是原始网络2和微调网络4中层归一化仿射变换的可学习参数,μ,/>是输入隐藏表示x的平均值和标准偏差。本申请还引入了两个加权参数βo,平衡两个层归一化的贡献。
为了在不出现灾难性遗忘的情况下,使中间网络(结构组合网络)同时掌握旧任务(t1,…,tn-1)和新任务tn,通过网络再训练来优化组合权重αo,αf,βo和βf。从两方面来优化中间网络3:(1)为了克服旧任务的灾难性遗忘,本申请引入了LwF损失/>它可以促使中间网络/>模拟原始网络2在所有旧任务上的输出。(2)为了确保新任务的表现,本申请使用有监督的方式对硬标签采用交叉熵损失/>并且对软标签采用知识蒸馏损失以获得微调网络4中的信息。重训练过程的完整目标函数如下:
其中n-1表示旧任务的数量。λ1和λ2是控制损失贡献的两个超参数。本申请对组合参数(αo,αf,βo,βf)应用L1衰减,目的是让组合参数中的值更多的接近于0,使组合网络结构在残差的影响下保留更多的原始网络的信息。为了保证结构组合网络的初始状态能平等地考虑原始网络2Mo以及微调网络/>初始化αo和βo的值为-0.5,αf和βf为0.5。另外,Mo和Mf的模型参数在本申请的再训练过程中被冻结了,避免原始网络2和微调网络4出现旧任务灾难性遗忘的情况。
经过再训练阶段,得到一个结构组合网络Msc处理任务[t1,…,tn]。为了在训练结束后使组合网络的规模与原始网络2的规模保持一致,提出了一种将中间网络3转化为最终组合网络1的网络转换机制Mpc。转换后的最终组合网络1和原始网络2拥有同样的网络规模。最终的组合网络Mpc可视为下一次迭代中新的原始网络2来学习下一个新任务。压缩了结构组合线性结构LTsc转化为标准线性变换形式,其定义如下:
其中,LTpc是最终组合网络1Mpc的标准线性变换。表示Mpc的线性变换参数。
进一步进,将结构组合层规一化转换为:
其中,LNpc是Mpc的层归一化。是输入特征x归一化的结果,/>表示Mpc中层归一化的转换参数。
当网络转换完成之后,本申请将Mpc视为新一轮任务tn+1学习中的原始网络2,如此一来,整个方案就可以不断的迭代进行组合,再训练,转换三个过程来实现持续学习。
基于残差连接的思路,提出了一种有效的结构组合方式,可以在保存更多原始网络2信息的情况下,对原始网络2和微调网络4进行结构组合,得到中间网络3。
对中间网络3进行重训练以获得更优的性能。其中使用LwF损失获取原始网络2中的信息以保护旧任务的性能;使用交叉熵损失学习新任务和使用知识蒸馏损失获取微调网络4中的信息,以更好的学习新任务;对(αo,αf,βo,βf)施加L1衰减,使得中间网络3可以更好的保留原始网络2的信息。
等价的将中间网络3转换成最终组合网络1,最终组合网络1和原始网络2保持相同的网络结构,从而可以在学习下一个新任务时视为新的原始网络2。
迭代网络组合在学习新任务时,线性组合原始网络2和微调网络4。将原始网络2和微调网络4的每一个线性变换和层归一化线性地组合起来,得到它们之间的中间网络3。原始网络2和微调网络4进行权重组合参数初始化;训练原始网络2和微调网络4,得到新的原始网络2和微调网络4权重组合参数。对中间网络3进行额外的再训练,以确保它能正常工作,对原始网络2的参数进行冻结,能避免灾难性遗忘。学习新的情感分类模型,将中间网络3转换成最终的组合网络,该组合网络与中间网络3是等价的,并且与原始网络2具有相同的网络结构。
线性组合原始网络2和微调网络4,得到中间网络3,对中间网络3引入LwF损失促使中间网络3模拟原始网络2在所有旧任务上的输出。在新旧模型的不断学习过程中,旧任务t1至tn-1,为原始网络2Mo;接受到的新任务tn被训练为的新的微调网络4Mf,在旧任务[t1,...,tn-1]以及新任务tn之间获得一个统一的网络,本申请将原始网络2和微调网络4的每一个线性变换和层归一化线性地组合起来,得到一个新的中间网络(结构组合网络)。对中间网络3引入LwF损失促使中间网络3模拟原始网络2在所有旧任务上的输出。使中间网络/>同时掌握旧任务(t1,…,tn-1)和新任务tn,通过训练该中间网络3,得到权重组合参数αo,αf,βo和βf参数。
为了确保新旧网络权重的合理化,通过应用LwF技术对新旧网络均进行交叉熵损失和知识蒸馏损失/>运算。对情感分类新任务中的软标签采用知识蒸馏运算,获取微调网络4中的信息;对原始网络2中的软标签采用知识蒸馏运算,获取微调网络4中的信息。对情感分类新任务中的硬标签采用交叉熵运算,获取微调网络4中的信息;对原始网络2中的硬标签采用交叉熵运算,获取微调网络4中的信息。上述运算是可选择性地同时或部分进行运算,可完全根据数据需求而定。
对原始网络2Mo、微调网络4、中间网络3以及最终组合网络之一个及以上的网络以BERT为骨干模型的。
本申请提出的一种基于迭代网络组合的情感分类的持续学习方法,将旧任务的原始网络2和新任务的微调网络4相结合,保留在先任务的任务性能,同时在不增加网络规模的情况下加快后续任务的学习进度。巧妙地将结构角度线性组合得到的中间网络3转换回了参数组合的形式,与原始网络2的结构和规模保持一致,这意味着网络的容量在持续学习过程中不会随着任务的增加而增加。
为了验证本申请的效果,发明人还进行了以下试验研究:
数据集:为了验证本申请技术方案(以下简称为CSIC)的有效性,对16个任务的情绪分类数据集进行了对比测试,包括从电影评论(IMDB,MR)和从Amazon收集的14个产品评论数据集。每个产品分为正面和负面两个方向的情感。对于每个数据集,原始训练集和测试集中的样本数分别约为1600和400。本申请将原始训练集随机分为训练集(87.5%)和验证集(12.5%)。
基准方法:首先,将CSIC与三种广泛使用的文本分类模型:BiLSTM、TextCNN和BERT进行了比较。其次,还将CSIC与流行的持续学习方法进行了比较,包括LwF、Mean IMM。此外,还报告了基本模型在访问任务后有选择地重新初始化其参数时获得的结果(表示为Re-init),它为每个任务保存了一个单独的模型,而不考虑连续学习场景。为了公平比较,用BERT模型代替了CNNs的原始模型。
具体细节:本申请选择BERT-base模型作为骨干网络,使用AdamW优化算法来训练本申请的模型,权重衰减设为1e-8,批处理大小设置为16,训练微调网络4过程中的BERT模型学习速率设为5e-5,重新训练中间网络3的学习速率设置为1e-3。此外,本申请将超参数λ1和λ2分别设置为0.3和1e-2。需要说明的是,此处的超参数λ1和λ2还可以是:0.1和5e-3;0.5和5e-2,等等。此时LwF和KD的softmax层中的温度因子设为2。为了保证实验结果的可靠性和稳定性,本申请用三种不同的种子对每种方法运行了三次,并报告了平均值。
CSIC和基准方法在16个情绪分类任务的表现(%),具体实验数据如下表所示:
结合图2,在访问所有16个任务的最终评估结果中,观察到普通分类方法(即BilSTM、TextCNN、BERT)的性能相较于持续学习方法(即LwF、Mean-IMM和CSIC)的性能已经处于落后地位。相较于本申请,传统的情绪分类方法会导致灾难性遗忘等技术问题,有不可逾越的鸿沟。
如图1和图2所示,在几项持续学习方法中,CSIC表现的比LwF和Mean-IMM也更有优势;靠后的几个任务中,总体的平均准确率高出LwF和Mean-IMM 2.5个百分点以上,且在不断的持续学习任务中,性能差异越明显。
如图2所示,本申请对所有模型在持续学习下的中间状态做了更详细的展示。结果显示传统的BERT在初期性能还算不错,但是在第5个任务开始出现明显下滑,进一步表明了BERT会在持续学习中发生灾难性遗忘。而本申请在持续学习过程中,表现出了很好的抗遗忘性,特别是在第6个任务之后,逐渐与其他两个持续学习方法拉开距离,展现出本技术方案在持续学习过程中,随着学习任务的不断增多,优势明显。
结论,为了公平起见,本申请对比BERT,IMM以及LwF方法时,使用BERT模型替换了IMM和LwF中所使用的CNN结构。实验结果显示,本申请在持续学习任务中,不会产生灾难性遗忘现象,十分有效的解决BERT在学习几个领域的情感分类任务之后就会出现的灾难性遗忘问题;在本实验中,发现IMM方法所提出的组合方式在任务较少时有着超出本申请的表现,但随着任务的增多,IMM方法在新任务的学习上逐渐变得困难,性能大幅度下降。而本申请在持续学习过程中,随着任务量越越多时,相较于当下其它较优秀的几类情感分类模型,表现得更为优异,本申请的性能大幅度超过IMM方法;相较于LwF方法,本申请得益于所提出的网络组合的思路,将原始网络和微调网络进行组合,并冻组合权重参数,并对组合权重参数进行再优化和存储于最终组合网络中,避免了大师的重复运算,从而保证了本申请的性能优势,在第12次任务后,本申请的准确率始终保持优于LwF大约2%左右的性能。
以上均为本申请的较佳实施例,并非依此限制本申请的保护范围,故:凡依本申请的方法所做的等效变化,均应涵盖于本申请的保护范围之内。
Claims (9)
1.一种基于迭代网络组合的情感分类持续学习方法,其特征在于,包括以下步骤:
将来自于多个数据源的训练数据以BERT为网络模型,建立原始网络;当获取到需要进行文本信息情感分类的新任务时,以BERT为网络模型,将原始网络适应新任务,得到微调网络,所述BERT的准确率优于IMM和LwF;
获取原始网络中的原始组合参数,并训练微调网络获取微调组合参数;
冻结原始组合参数和微调组合参数;
线性组合原始网络和微调网络,得到中间网络;
对中间网络进行权重组合参数的初始化,获得组合初始化参数;
获取中间网络中的原始组合参数和微调组合参数;
基于原始组合参数、微调组合参数和组合初始化参数重训练中间网络,得到优化权重组合参数;
将中间网络等价转换为最终组合网络,该最终组合网络在学习下一个新任务时作为新的原始网络;该优化权重组合参数作为下一个新任务原始网络的原始组合参数;
根据所述最终组合网络与所述优化权重组合参数控制情感分类模型持续学习;
步骤线性组合原始网络和微调网络中,通过结构线性组合中的残差运算来连接原始网络和微调网络,结构组合线性变换LTsc的变换式为:
LTsc(x)=LTo(x)+αo⊙LTo(x)+αf⊙LTf(x)
=Wox+αo⊙(Wox)+αf⊙(Wfx)
通过线性组合原始网络和微调网络得到中间网络,得到的中间网络包括原始网络线性变换权重参数αo和微调网络线性变换权重参数αf,原始网络线性
变换权重参数αo和微调网络线性变换权重参数αf组合得到线性变换的中间网络参数(αo,αf);
其中,x是指输入特征,输入特性为LTo和LTf分别为原始网络和微调网络的线性变换;⊙表示按元素级别的乘积;dj表示线性变换的输出维数,di表示线性变换的输入维数;Wo表示线性变换LTo权重参数,Wf表示线性变换LTf权重参数,
2.根据权利要求1所述的基于迭代网络组合的情感分类持续学习方法,其特征在于,在步骤线性组合原始网络和微调网络中,通过结构组合层归一化中的均值和方差运算来连接原始网络和微调网络,其结构组合层归一化LNsc转换式为:
通过层归一化组合原始网络和微调网络得到中间网络;层归一化组合得到的中间网络包括原始网络层归一化权重参数βo和微调网络线层归一化重参数βf,原始网络层归一化权重参数βo和微调网络线层归一化重参数βf组合为层归一化后的中间网络参数(βo,βf);
其中,LNo为在原始网络的层归一化运算;LNf表示在微调网络的层归一化运算;go是原始网络中层归一化仿射变换的可学习参数,gf是微调网络中层归一化仿射变换的可学习参数,μ是输入隐藏表示x的平均值,σ是输入隐藏表示x的标准偏差,
3.根据权利要求1所述的基于迭代网络组合的情感分类持续学习方法,其特征在于,在步骤重训练中间网络中,包括分别通过如下算法获取原始网络和微调网络中的数据:
无遗忘学习运算获取原始网络的输出性能;知识蒸馏运算/>从微调网络的软标签中获取微调网络中的信息;
交叉熵运算从微调网络的硬标签中学习新任务的性能;
并将运算线性地组合起来,得到中间网络。
4.根据权利要求1所述的基于迭代网络组合的情感分类持续学习方法,其特征在于,在步骤重训练中间网络中,对中间网络中的原始网络数据进行无遗忘学习运算,对中间网络中的微调网络数据进行交叉熵运算和知识蒸馏损失运算,训练中间网络的完整目标函数为:
通过重训练优化了中间网络,得到优化权重组合参数:
其中,(αo,αf,βo,βf)表示权重组合参数;n-1表示旧任务的数量;λ1和λ2是控制损失贡献的两个超参数;为LwF损失运算;/>为交叉熵损失运算;/>为知识蒸馏损失运算,Msc为中间网络;Mo为原始网络,Mf为微调网络。
5.根据权利要求1所述的基于迭代网络组合的情感分类持续学习方法,其特征在于,在步骤中间网络等价转换为最终组合网络中,将中间网络的结构组合线性变换LTsc转换为标准线性的转换式为:
通过线性转换最终组合网络;
其中LTpc是最终组合网络Mpc的线性变换,表示Mpc的线性变换参数,Wo表示线性变换LTo权重参数,Wf表示线性变换LTf权重参数。
6.根据权利要求1所述的基于迭代网络组合的情感分类持续学习方法,其特征在于,在步骤中间网络转换为最终组合网络中,将结构组合层归一化转换为标准层归一化的转换为:
通过层归一化转换最终组合网络;
其中,LNpc是最终组合网络Mpc的层归一化;是输入特征x层归一化的结果,gpc表示Mpc的层归一化的转换参数,go是原始网络中层归一化仿射变换的可学习参数,gf是微调网络中层归一化仿射变换的可学习参数。
7.根据权利要求1所述的基于迭代网络组合的情感分类持续学习方法,其特征在于,步骤基于原始组合参数、微调组合参数和组合初始化参数重训练中间网络中,包括对优化权重组合参数施加L1衰减。
8.一种计算机可读存储介质,其特征在于,存储有能够被处理器加载并执行如权利要求1至7中任一种基于迭代网络组合的情感分类持续学习方法的计算机程序。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行如权利要求1至7中任一种基于迭代网络组合的情感分类持续学习方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110853228.5A CN113590748B (zh) | 2021-07-27 | 2021-07-27 | 基于迭代网络组合的情感分类持续学习方法及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110853228.5A CN113590748B (zh) | 2021-07-27 | 2021-07-27 | 基于迭代网络组合的情感分类持续学习方法及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113590748A CN113590748A (zh) | 2021-11-02 |
CN113590748B true CN113590748B (zh) | 2024-03-26 |
Family
ID=78250756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110853228.5A Active CN113590748B (zh) | 2021-07-27 | 2021-07-27 | 基于迭代网络组合的情感分类持续学习方法及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113590748B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117435737A (zh) * | 2023-11-10 | 2024-01-23 | 北方工业大学 | 一种基于自适应参数更新的终身情感分类方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110032646A (zh) * | 2019-05-08 | 2019-07-19 | 山西财经大学 | 基于多源领域适应联合学习的跨领域文本情感分类方法 |
WO2020095321A2 (en) * | 2018-11-06 | 2020-05-14 | Vishwajeet Singh Thakur | Dynamic structure neural machine for solving prediction problems with uses in machine learning |
CN111680160A (zh) * | 2020-06-16 | 2020-09-18 | 西北师范大学 | 一种用于文本情感分类的深度迁移学习方法 |
CN112559738A (zh) * | 2020-11-25 | 2021-03-26 | 中国科学院深圳先进技术研究院 | 基于自适应不确定性正则化的情感分类持续学习方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11195057B2 (en) * | 2014-03-18 | 2021-12-07 | Z Advanced Computing, Inc. | System and method for extremely efficient image and pattern recognition and artificial intelligence platform |
US11544536B2 (en) * | 2018-09-27 | 2023-01-03 | Google Llc | Hybrid neural architecture search |
-
2021
- 2021-07-27 CN CN202110853228.5A patent/CN113590748B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020095321A2 (en) * | 2018-11-06 | 2020-05-14 | Vishwajeet Singh Thakur | Dynamic structure neural machine for solving prediction problems with uses in machine learning |
CN110032646A (zh) * | 2019-05-08 | 2019-07-19 | 山西财经大学 | 基于多源领域适应联合学习的跨领域文本情感分类方法 |
CN111680160A (zh) * | 2020-06-16 | 2020-09-18 | 西北师范大学 | 一种用于文本情感分类的深度迁移学习方法 |
CN112559738A (zh) * | 2020-11-25 | 2021-03-26 | 中国科学院深圳先进技术研究院 | 基于自适应不确定性正则化的情感分类持续学习方法 |
Non-Patent Citations (1)
Title |
---|
"面向上下文注意力联合学习网络的方面级情感分类模型";杨玉亭等;《模式识别与人工智能》;20200815;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113590748A (zh) | 2021-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107480261B (zh) | 一种基于深度学习细粒度人脸图像快速检索方法 | |
CN108985335B (zh) | 核反应堆包壳材料辐照肿胀的集成学习预测方法 | |
CN107729999A (zh) | 考虑矩阵相关性的深度神经网络压缩方法 | |
CN110941734B (zh) | 基于稀疏图结构的深度无监督图像检索方法 | |
CN108985457B (zh) | 一种受优化算法启发的深度神经网络结构设计方法 | |
CN111882040A (zh) | 基于通道数量搜索的卷积神经网络压缩方法 | |
CN111461322A (zh) | 一种深度神经网络模型压缩方法 | |
CN111723914A (zh) | 一种基于卷积核预测的神经网络架构搜索方法 | |
CN111651576B (zh) | 一种基于迁移学习的多轮阅读理解方法 | |
CN110929798A (zh) | 基于结构优化稀疏卷积神经网络的图像分类方法及介质 | |
CN109886389B (zh) | 一种基于Highway和DC的新型双向LSTM神经网络构建方法 | |
CN116316591A (zh) | 基于混合双向门控循环的短期光伏功率预测方法及系统 | |
CN113159072B (zh) | 基于一致正则化的在线超限学习机目标识别方法及系统 | |
CN112949610A (zh) | 一种基于降噪算法的改进Elman神经网络的预测方法 | |
CN112988548A (zh) | 一种基于降噪算法的改进Elman神经网络的预测方法 | |
Liu et al. | EACP: An effective automatic channel pruning for neural networks | |
CN113590748B (zh) | 基于迭代网络组合的情感分类持续学习方法及存储介质 | |
CN111353534A (zh) | 一种基于自适应分数阶梯度的图数据类别预测方法 | |
CN114741507A (zh) | 基于Transformer的图卷积网络的引文网络分类模型建立及分类 | |
CN109558898B (zh) | 一种基于深度神经网络的高置信度的多选择学习方法 | |
CN111967528B (zh) | 基于稀疏编码的深度学习网络结构搜索的图像识别方法 | |
CN115599918B (zh) | 一种基于图增强的互学习文本分类方法及系统 | |
CN111753995A (zh) | 一种基于梯度提升树的局部可解释方法 | |
CN116562362A (zh) | 一种基于混合策略博弈的对抗训练微调方法 | |
CN116303386A (zh) | 一种基于关系图谱的缺失数据智能插补方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |