CN117708336B - 一种基于主题增强和知识蒸馏的多策略情感分析方法 - Google Patents

一种基于主题增强和知识蒸馏的多策略情感分析方法 Download PDF

Info

Publication number
CN117708336B
CN117708336B CN202410160917.1A CN202410160917A CN117708336B CN 117708336 B CN117708336 B CN 117708336B CN 202410160917 A CN202410160917 A CN 202410160917A CN 117708336 B CN117708336 B CN 117708336B
Authority
CN
China
Prior art keywords
model
topic
sentence
layer
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410160917.1A
Other languages
English (en)
Other versions
CN117708336A (zh
Inventor
黄海平
杨滢彧
王睿
肖甫
徐剑
常舒予
龙章伯
郝仁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202410160917.1A priority Critical patent/CN117708336B/zh
Publication of CN117708336A publication Critical patent/CN117708336A/zh
Application granted granted Critical
Publication of CN117708336B publication Critical patent/CN117708336B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/27Regression, e.g. linear or logistic regression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0495Quantised networks; Sparse networks; Compressed networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于情感分析技术领域,涉及一种基于主题增强和知识蒸馏的多策略情感分析方法;包括对数据集进行预处理获得真实文本;将真实文本中句子使用词袋模型表示成句子词袋表示并作为主题模型的输入,生成主题嵌入表示;将真实文本作为BERT‑base模型的输入获得句子向量表示,通过12层编码器生成12维包含语义信息的特征向量,将主题嵌入表示与特征向量结合,得到包含语义信息和主题信息的句子向量,完成教师模型训练;通过三种蒸馏策略及分类目标损失,对学生模型进行训练,将待分析的数据集输入训练好的学生模型中,得到分类结果;相比现有的情感分析模型,本发明具有更高的分类准确性和模型可解释性,降低模型时延,压缩网络参数。

Description

一种基于主题增强和知识蒸馏的多策略情感分析方法
技术领域
本发明属于情感分析技术领域,具体涉及一种基于主题增强和知识蒸馏的多策略情感分析方法。
背景技术
文本情感分析,是对带有主观感情色彩的文本进行分类、处理、归纳和推理的过程,情感极性分为积极、消极、中性等。随着网络上社交媒体的快速发展,互联网(如推特和论坛以及社会服务网络等)上产生大量的评论信息,往往表达了人们的各种主观情绪以及情感倾向性。
按照使用方法的不同,可以将现有情感分析研究划分为基于情感词典的方法、基于机器学习的方法和基于深度学习的方法。基于情感词典的文本情感分类方法大多时候只是将文本看作字词的集合,而不考虑文本中字词之间的关系。在此基础上,基于机器学习的文本情感分类方法被提出。它们能够对多种特征进行建模分析,在数据规模较大时也具有保持稳定分析和处理的能力,并具有较好的分类效果,但基于机器学习的文本情感分类方法主要集中在人工特征选取和分类器选取,需要消耗大量的时间和人力进行训练集标注和特征选择,而且该方法属于浅层的学习算法,不能刻画复杂函数,无法适应海量文本数据的处理,且不能充分考虑上下文语义。随着深度学习算法发展,越来越多的专家学者将深度学习应用于文本情感分类方法中。这些模型的广泛研究进步表明,语义信息对情感分析任务具有重大的意义。现有的研究中,已开始联合使用文档的主题信息和语义信息来提升情感分类效果。然而,如何高效提取并结合这些信息仍存在大量空白。同时随着预训练模型的广泛应用,模型参数量大,训练时间较长等问题逐一显现。
目前同时运用这两类信息引导情感分类的模型仍不多,2019年,《Encodingsyntactic dependency and topical information for social emotionclassification》中提出a Gated DR-G-Tmodel解决了这一问题,通过递归神经网络学习文档的特征向量,利用门控层结合预训练的LDA模型学习到的主题信息,但分类模型与主题模型是单独训练的,不能联合提取语义特征和主题特征,且训练时间开销较大。2020年,《Anend-to-end topic-enhanced self-attention network for social emotionclassification》中提出a TESAN model同时训练分类模型和主题模型,设计融合门将文档向量与主题嵌入相结合,构成用于社会情感分类的最终文档表示。但该模型只是对主题信息和语义信息进行简单的融合,并未对其进行筛选,有针对性地关注更加关键的信息,此外,在模型特征提取部分对文档高级的语义信息学习能力有限。且现有预训练模型中,普遍存在模型参数量大,训练时间较长等问题,如何减少模型训练开销,实现模型轻量化亟待解决。
发明内容
本发明针对上述现有技术中存在的问题,提供一种基于主题增强和知识蒸馏的多策略情感分析方法,利用主题嵌入表述引导训练模型,融合主题信息和语义信息最大化主题分布与词分布之间的相互信息来提升模型的分类性能及可解释性,同时通过三重蒸馏对学生模型进行训练,实现模型轻量化。
为了实现上述目的,本发明采用以下技术方案:一种基于主题增强和知识蒸馏的多策略情感分析方法,所述方法包括以下步骤:
步骤1,获取数据集,对数据集进行数据预处理获得真实文本D,真实文本D={d1,d2,..,dj,..,dn}中包含n条句子dj,j∈{1,2,...,n},句子中包含单词;将每条句子dj使用词袋模型表示成句子词袋表示V为真实文本D中不重复的单词的数量;
步骤2,训练教师模型;
步骤2.1,教师模型包括主题模型和BERT-base模型,将句子词袋表示作为主题模型的输入,句子词袋表示/>通过主题模型的编码器转换为主题分布θ,主题分布θ通过主题模型的解码器转换为包含主题信息的主题嵌入表示zt,zt∈RF,F表示维度;
步骤2.2,将真实文本D作为BERT-base模型的输入,得到句子向量表示E,句子向量表示E作为BERT-base模型中12层编码器的输入,将每一层编码器输出的第一个词元组成12维包含语义信息的特征向量H;
步骤2.3,将主题嵌入表示zt与特征向量H结合,得到包含语义信息和主题信息的句子向量v,完成对教师模型的训练;
步骤3,训练学生模型,学生模型包括含有6层编码器的BERT-base模型,分别利用BERT-base模型中词元之间的横向蒸馏目标函数Lwr-angle和纵向蒸馏目标函数Lltr-angle、软交叉熵损失函数Lpred建立教师模型和学生模型之间的关系,完成学生模型进行训练;
步骤4,将待分析数据集输入训练好的学生模型中,通过分类层输出每个类别的概率y,即得到分析结果。
进一步地,步骤1中所述的每条句子dj使用词袋模型表示成句子词袋表示具体步骤如下:
将真实文本D={d1,d2,...,dj,...,dn}中重复的单词去除,得到词汇表Y={w1,w2,...,wi,...,wV},i∈[1,2,...,V],句子dj通过TF-IDF方法得到句子词袋表示具体计算公式如下:
其中,Ni,j表示单词wi在句子dj中出现的次数,TFi,j表示单词wi在句子dj中出现的频率,|j:wi∈dj|表示包含单词wi的句子dj的数量;IDFi为单词wi在真实文本D中的流行程度;如果包含该单词的句子越少,则IDFi越大,说明该单词具有良好的类别区分能力;表示句子dj中单词wi的语义相关性。
进一步地,步骤2.1中具体步骤如下:
步骤2.1.1,利用主题模型的编码器将句子词袋表示转化为主题分布,以此来学习句子潜在的语义信息;主题模型的编码器包括多层感知器MLP,通过多层感知器MLP中批标准化BN层及激活函数LeakyReLU将句子词袋表示映射得到K维:
zo=max(ro,η*ro);
其中,Wo∈RK×V,bo∈RK为全连接层的权重矩阵和偏置项,ro为通过BN(·)进行归一化后的隐层;η为激活函数LeakyReLU的超参数,zo为经过激活函数LeakyReLU的输出;
步骤2.1.2,随后,通过多层感知器MLP中批标准化BN层及softmax函数转换将zo映射到S维,得到文档-主题分布θm
θm=softmax(BN(Wezo+be));
其中,We∈RS×K,be∈RS为全连接层的权重矩阵和偏置项;
步骤2.1.3,为了学习到更加连贯的主题信息,在文档-主题分布θm中添加噪声得到主题分布θ:
其中,β∈[0,1]表示噪声的混合比例;Dirichlet(α)为狄利克雷分布,其中α是分布参数;
步骤2.1.4,主题模型的解码器包括多层感知器MLP,通过多层感知器MLP中批标准化BN层及激活函数LeakyReLU将主题分布θ映射到F维,得到主题嵌入表示zt
rt=BN(Wtθ+bt);
zt=max(rt,η*rt);
其中,Wt∈RF×S,bt∈RF是全连接层的权重矩阵和偏置项,rt为通过BN(·)进行归一化的输出隐向量。
进一步地,在主题模型训练过程中,定义主题模型损失函数Lt来度量重构分布与真实之间的差异程度,主题模型损失函数Lt越小,主题模型的鲁棒性就越好;
主题模型的解码器将主题嵌入表示zt进行重构,生成V维的重构分布
其中,Wa∈RV×F,ba∈RV是全连接层的权重矩阵和偏置项;
主题模型损失函数Lt为:
其中,主题模型的目标包括重建项和基于MMD的正则化项,γ是用来平衡两部分的超参数,MMD为计算最大均值差异,用来度量主题信息分布Qθ与先验随机样本分布Pθ之间的距离;为重构分布/>的同维拆分。
进一步地,步骤2.2中,具体为:
步骤2.2.1,句子向量表示E如下:
E=Etok+Eseg+Epos
其中,Etok是语义级别的句子的向量表示;Eseg是辅助区别句子对中的两个句子的向量表示;Epos是真实文本的位置向量,其中Etok,Eseg,Epos∈RB×F',B表示句子dj对应的向量长度,F'代表BERT-base模型中每一个词元对应的向量长度,令F'=F;
步骤2.2.2,句子向量表示E作为BERT-base模型中12层编码器的输入,将每一层编码器输出的第一个词元组成12维包含语义信息的特征向量H:
H=BERT{h1,h2,...,hu,...,h12};
其中,hu∈RF'是u层编码器输出的第一个词元的CLS向量表示,u∈{1,2,...,12};H∈R12×F'是BERT-base模型的输出。
进一步地,步骤2.3中,具体为:
步骤2.3.1,利用主题嵌入表示zt进行引导,计算特征向量H中每个词元的注意力概率分布:
H=BERT{h1,h2,...,hu,...,h12};
其中,hu是u层编码器输出的第一个词元的向量表示,u∈{1,2,...,12};Wp∈RF '×F',bp∈RF'是全连接层权重矩阵和偏置项;f(hu,zt)越大,意味着对应的单词隐含主题信息的概率更大;
步骤2.3.2,计算出注意力分布αu并得到包含语义信息和主题信息的句子向量v:
其中,αu∈RF'×F',v∈RF'
进一步地,步骤3中,具体为:
横向蒸馏目标函数Lwr-angle表示为:
Lwr-angle=MSE(ψA(hδ,hφ,hλ),ψC(hδ′′,hφ′′,hλ′′));
教师模型中BERT-base模型内每层编码器输出的隐向量组成三维矩阵;其中,hδ,hφ,hλ∈RF'为教师模型中任意横向相邻的三个词元,δ,φ,λ∈{1,2....,B},hδ′′,hφ′′,hλ′′∈RF'为学生模型中任意横向相邻的三个词元,δ',φ',λ'∈{1,2....,B},ψA(hδ,hφ,hλ),ψC(hδ′′,hφ′′,hλ′′)分别为教师模型及学生模型任意横向相邻的三个词元的cos距离;MSE(·)为均方误差计算公式;
纵向蒸馏目标函数Lltr-angle表示为:
Lltr-angle=MSE(ψA(hμ,hω,hτ),ψC(hμ′′,hω′′,hτ′′))
其中,hμ,hω,hτ∈RF'为教师模型任意纵向相邻的三个词元,μ,ω,τ∈{1,2,...,12};hμ′′,hω′′,hτ′′∈RF'为学生模型任意纵向相邻的三个词元,μ',ω',τ'∈{1,2,...,6};ψA(hμ,hω,hτ),ψC(hμ′′,hω′′,hτ′′)分别为教师模型及学生模型任意纵向相邻的三个词元的cos距离;
让学生模型直接蒸馏教师模型的最终预测logit,软交叉熵损失函数Lpred
其中,Q是用于控制软标签重要程度的超参数;qr,ql∈RF'表示logit输出的分类结果,其中,r,l∈{1,2,...,M},M为类别数量。
进一步地,定义分类目标损失Lc估量训练好的学生模型的预测值与真实值的不一致程度:
其中,yz表示分类层输出每个类别的概率,表示真实标签分布;M为类别数量。使用KL散度来衡量两者分布差异,通过优化以上损失函数可以使得学生网络的logit输出尽可能和教师网络的logit输出相似,从而达到学习的目的。
在本发明中,设计了一个新的模型,并提出一种新型知识蒸馏策略来解决上述限制。具体来说,模型由教师模型及学生模型两大部分组成。其中,教师模型包含三个部分:特征提取模块、主题抽取模块、分类器。首先,在特征提取部分,利用Bert模型学习文档的语义信息,传统Bert文本分类模型常见做法为将Bert最后一层输出的第一个词元位置(CLS位置)当作句子的表示,后接全连接层进行分类。在本发明中,除去第一层输入层,有12个编码器层,每个编码器层的第一个词元(CLS)向量都可以当作句子向量,可以抽象的理解为,编码器层越浅,句子向量越能代表低级别语义信息,越深,代表更高级别语义信息。因此,这里将第1层到第12层的CLS向量同时抽取,生成由浅及深的层级化句子向量作为分类器的输入,从而满足既想得到有关词的特征,又想得到语义特征的目的。
此外,在主题模型模块,利用基于Wasserstein自动编码器(WAE)的方法进行主题建模,保留Dirichlet先验,并将聚合后验与先验相匹配,从而促成更好的重构效果,同时实现主题可视化,有效增强模型可解释性。同时,利用注意力融合机制,充分利用语义信息及主题信息。通过主题引导筛选赋予更关键的词和更贴合语义的主题词更高的权重,显著提升模型的分类效果。
本发明具有以下技术效果:(1)本发明提出一种基于主题增强和知识蒸馏的多策略情感分析方法用于情感分类任务;基于词匹配进行深入研究,引入注意力融合机制,利用主题嵌入表示引导语义特征进行学习,充分利用语义信息及主题信息,从而满足既想得到有关词的特征,又想得到语义特征的目的;显著提升模型的分类效果。
(2)本发明提出一种新的知识蒸馏策略,通过融合主题信息和语义信息最大化主题分布与词分布之间的互信息来提升模型的分类性能及可解释性,同时通过三重蒸馏策略对学生模型进行训练,对模型实现轻量化处理,弥补了压缩模型所带来的信息缺失问题,在提高模型分类效果的同时,大大缩减了模型的训练时长。
附图说明
图1是本发明一种基于主题增强和知识蒸馏的多策略情感分析方法的流程图。
图2为本发明一种基于主题增强和知识蒸馏的多策略情感分析方法的总模型架构图。
图3是本发明的教师模型架构图。
图4是本发明的蒸馏策略示意图。
图5是本发明的学生模型架构图。
图6是本发明在Corona_NLP验证集上准确率随迭代次数的变化曲线。
图7是本发明在Corona_NLP验证集上损失结果随迭代次数的变化曲线。
图8是本发明在Corona_NLP数据集训练过程中分类目标损失Lc随迭代次数的变化曲线。
图9是本发明在Corona_NLP数据集训练过程中软交叉熵损失函数Lpred随迭代次数的变化曲线。
图10是本发明在Corona_NLP数据集训练过程中词元之间横向蒸馏目标函数值Lwr-angle随迭代次数的变化曲线。
图11是本发明在Corona_NLP数据集训练过程中词元之间纵向蒸馏目标函数值Lltr-angle随迭代次数的变化曲线。
具体实施方式
下面将对本发明的内容和附图作详细说明,本实施例在以本发明技术方案为前提下进行实施,涉及到详细的实施方案与操作过程,但本发明的保护范围不仅限于下列的具体实施例,在本发明中使用的术语仅仅是出于描述特定实施例的目的,而非旨在限制本发明。
如图1一种基于主题增强和知识蒸馏的多策略情感分析方法的流程图、图2总模型架构图所示,一种基于主题增强和知识蒸馏的多策略情感分析方法,所述方法包括以下步骤:
步骤1,获取数据集,对数据集进行数据预处理获得真实文本D,真实文本D={d1,d2,..,dj,..,dn}中包含n条句子dj,j∈{1,2,...,n},句子中包含单词;将每条句子dj使用词袋模型表示成句子词袋表示V为真实文本D中不重复的单词的数量;
步骤1.1,对数据集进行数据预处理,数据集中均包含单词、符号、URLs、hashtags和mentions,文字对文本文本情感预测具有积极作用,而符号、URLs和mentions可以忽略。删除停用词和出现不超过三次的词;同时,在文本内容中,存在一部分的拼写错误、信息缺失或者重复等情况。因此,使用tweet-preprocessor对数据进行预处理,并利用spaCy进行词形还原,获得真实文本D;真实文本D为向量矩阵,以二进制形式存储;
步骤1.2,将真实文本D={d1,d2,...,dj,...,dn}中重复的单词去除,得到词汇表Y={w1,w2,...,wi,...,wV},i∈[1,2,...,V],句子dj通过TF-IDF方法得到句子词袋表示具体计算公式如下:
其中,Ni,j表示单词wi在句子dj中出现的次数,TFi,j表示单词wi在句子dj中出现的频率,|j:wi∈dj|表示包含单词wi的句子dj的数量;IDFi为单词wi在真实文本D中的流行程度;表示句子dj中单词wi的语义相关性。
步骤2,训练教师模型,如图3本发明的教师模型架构图所示;
步骤2.1,教师模型包括主题模型和BERT-base模型;将句子词袋表示作为主题模型的输入,句子词袋表示/>通过主题模型的编码器转换为主题分布θ,主题分布θ通过主题模型的解码器转换为包含主题信息的主题嵌入表示zt,zt∈RF,F表示维度;
具体为:步骤2.1.1,通过多层感知器MLP中批标准化BN层及激活函数LeakyReLU将句子词袋表示映射得到K维:
zo=max(ro,η*ro);
其中,Wo∈RK×V,bo∈RK为全连接层的权重矩阵和偏置项,ro为通过BN(·)进行归一化后的隐层;η为激活函数LeakyReLU的超参数,zo为经过激活函数LeakyReLU的输出;
步骤2.1.2,随后,通过多层感知器MLP中批标准化BN层及softmax函数转换将zo映射到S维,得到文档-主题分布θm
θm=softmax(BN(Wezo+be));
其中,We∈RS×K,be∈RS为全连接层的权重矩阵和偏置项;
步骤2.1.3,在文档-主题分布θm中添加噪声得到主题分布θ:
其中,β∈[0,1]表示噪声的混合比例;Dirichlet(α)为狄利克雷分布,其中α是分布参数;
步骤2.1.4,主题模型的解码器包括多层感知器MLP,通过多层感知器MLP中批标准化BN层及激活函数LeakyReLU将主题分布θ映射到F维,得到主题嵌入表示zt
rt=BN(Wtθ+bt);
zt=max(rt,η*rt);
其中,Wt∈RF×S,bt∈RF是全连接层的权重矩阵和偏置项,rt为通过BN(·)进行归一化的输出隐向量;
步骤2.1.4,在主题模型训练过程中,定义主题模型损失函数Lt度量重构分布与真实之间的差异程度,主题模型损失函数Lt越小,主题模型的鲁棒性就越好;
主题模型的解码器将主题嵌入表示zt进行重构,生成V维的重构分布
其中,Wa∈RV×F,ba∈RV是全连接层的权重矩阵和偏置项;表示为的向量形式;
主题模型损失函数Lt为:
其中,主题模型的目标包括重建项和基于MMD的正则化项,γ是用来平衡两部分的超参数,MMD为计算最大均值差异,用来度量主题信息分布Qθ与先验随机样本分布Pθ之间的距离;为重构分布/>的同维拆分。
步骤2.2,将真实文本D中句子dj(d(CLS),d(j,1),d(j,2)...d(j,B-1),d(j,B))作为BERT-base模型的输入,得到句子向量表示E,句子向量表示E作为BERT-base模型中12层transformer编码器的输入,将每一层编码器输出的第一个词元组成12维包含语义信息的特征向量H;
具体为:句子向量表示E如下:
E=Etok+Eseg+Epos
其中,,如图2-5所示,E表示为(E(CLS),E1,E2,...,EB)的向量形式,Etok是语义级别的句子的向量表示;Eseg是辅助区别句子对中的两个句子的向量表示;Epos是真实文本的位置向量,其中Etok,Eseg,Epos∈RB×F',B表示句子dj对应的向量长度,F'代表BERT-base模型中每一个词元对应的向量长度,令F'=F;
步骤2.2.2,句子向量表示E作为BERT-base模型中12层编码器的输入,将每一层编码器输出的第一个词元组成12维包含语义信息的特征向量H:
H=BERT{h1,h2,...,hu,...,h12};
其中,hu∈RF'是u层编码器输出的第一个词元的向量表示,u∈{1,2,...,12};H∈R12×F'是BERT-base模型的输出。
步骤2.3,将主题嵌入表示zt与特征向量H结合,得到包含语义信息和主题信息的句子向量v,完成对教师模型的训练;
具体为:步骤2.3.1,为了引入主题信息,与上下文信息相结合,利用主题嵌入表示zt进行引导,计算特征向量H中每个词元的注意力概率分布:
其中,Wp∈RF'×F',bp∈RF'是全连接层权重矩阵和偏置项;
步骤2.3.2,计算出注意力分布αu并得到包含语义信息和主题信息的句子向量v:
其中,αu∈RF'×F',如图2和图3所示,v表示为(v(1),v(2),v(3),...,v(F'-1),v(F'))的向量形式,v∈RF'。v中既包含文本的语义信息,同时也包含通过注意力机制引入的主题分布。
步骤3,训练学生模型,如图4蒸馏策略示意图所示,学生模型包括含有6层transformer编码器的BERT-base模型,分别利用BERT-base模型中词元之间的横向蒸馏目标函数Lwr-angle和纵向蒸馏目标函数Lltr-angle、软交叉熵损失函数Lpred建立教师模型和学生模型之间的关系,完成学生模型进行训练;
BERT-base模型的编码器中每一层输出的隐向量组成三维矩阵,其中每一层输出的隐向量第一个词元与主题嵌入表示相结合生成句子向量,在所有隐向量组成的三维矩阵中,每个词元都会对应自己的向量表示,
词元之间横向关系的蒸馏目标,横向蒸馏目标函数在一个语言模型中,每个词元都是带有独立语境的,而一句话经过语言模型建模的语义信息依赖于每个词元之间的内在关系。因此,本发明不是直接对Embedding、每层的Token向量或者Block输出隐向量来比较他们的分布,让学生模型去直接拟合教师模型中的向量。试图将词元之间的语义关系进行蒸馏,所以把这个目标函数称为横向蒸馏目标函数;
横向来看任选三个token可以看作一个三元组。使用三元组的角度来衡量三个词元的语境关系,采用三元组(三个词元,限定在一个窗口中)比采用两元组(两个词元)可以获得更丰富的关系表示,然后采用MSE来计算loss。横向蒸馏目标函数Lwr-angle表示为:
Lwr-angle=MSE(ψA(hδ,hφ,hλ),ψC(hδ′′,hφ′′,hλ′′));
其中,hδ,hφ,hλ∈RF'为教师模型中h(u,g)∈RF'中任意横向相邻的三个词元,h(u,g)是教师模型中第u层编码器输出的除CLS向量外第g个词元的向量表示,u∈{1,2,...,12},g∈{1,2,...,B},δ,φ,λ∈{1,2....,B},hδ′′,hφ′′,hλ′′∈RF'为学生模型中h(u',g')'∈RF'中任意横向相邻的三个词元,h(u',g')'是学生模型中第u'层编码器输出的除CLS向量外第g'个词元的向量表示,u'∈{1,2,...,6},g'∈{1,2,...,B},δ',φ',λ'∈{1,2....,B},ψA(hδ,hφ,hλ),ψC(hδ′′,hφ′′,hλ′′)分别为教师模型及学生模型任意横向相邻的三个词元的cos距离;MSE(·)为均方误差计算公式;
cos∠(·)即为计算cos距离,||·||2为欧氏距离;hδ-hφ是向量相减(得到的是hδ结尾指向hφ结尾的向量),hλ-hφ得到的是hλ结尾指向hφ结尾的向量;
在语言模型中,词元在每一层都可能表示了不同的语义信息,类似于上面横向的建模,同样可以纵向的建模,试图从纵向将词元之间的语义关系进行蒸馏。纵向蒸馏目标函数Lltr-angle表示为:
ψ(hμ,hω,hτ)=cos∠(hμ,hω,hτ)
Lltr-angle=MSE(ψA(hμ,hω,hτ),ψC(hμ′′,hω′′,hτ′′))
其中,hμ,hω,hτ∈RF'为教师模型任意纵向相邻的三个词元,μ,ω,τ∈{1,2,...,12};hμ′′,hω′′,hτ′′∈RF'为学生模型任意纵向相邻的三个词元,μ',ω',τ'∈{1,2,...,6};ψA(hμ,hω,hτ),ψC(hμ′′,hω′′,hτ′′)分别为教师模型及学生模型任意纵向相邻的三个词元的cos距离;
让学生模型直接蒸馏教师模型的最终预测(logit)。为了更好地控制输出概率的平滑程度,给模型输出的激活函数softmax中加了一个温度参数Q。在知识蒸馏中,教师模型预测的概率输出为软标签,所以把这个目标函数称为软交叉熵损失函数:
其中,Q是用于控制软标签重要程度的超参数;qr,ql∈RF'表示logit输出的分类结果,其中,r,l∈{1,2,...,M},M为类别数量。
步骤4,将待分析数据集输入训练好的学生模型中,如图5学生模型架构图所示,通过分类层(分类层利用多类别逻辑回归)输出每个类别的概率y,也可以使用dropout和L2正则化来防止过拟合;即得到分析结果;
定义分类目标损失Lc估量训练好的学生模型的预测值与真实值的不一致程度:
其中,yz表示分类层输出每个类别的概率,表示真实标签分布;M为类别数量。
数据集介绍:
本发明选取三个公共数据集进行实验,来验证教师模型和学生模型的优越性。
Corona_NLP:这是一个英文数据集,包含以下主题标签的用户的推文:#coronavirus,#coronavirusoutbreak,#coronavirusPandemic,#covid19,#covid_19。文本被标记为三种情绪类别:积极、中立和消极。其中,训练集包含26762条推文,验证集、测试机分别包含8920条数据。
Covid19_new_tweet:这个数据集包含来自印度的关于冠状病毒、covid-19等主题的推文。这些推文是在2020年3月23日至2020年7月15日之间收集的。数据集大小为6492,其中5194条数据作为训练集,1298条数据作为测试集。然后文本被标记为四种情绪类别恐惧,悲伤,愤怒和喜悦。
Twitter Sentiment:这是一个来自Kaggle的数据集,包含来自推特用户的20000条日常推文。文本被标记为两种情绪类别,分别是积极和消极。数据集共包含12264个实例,其中将80%设为训练集,20%设为测试集。
对处理后的数据集的统计结果如表1Corona_NLP、Covid19_new_tweet、TwitterSentiment三个公开数据集情感类别的统计结果所示。
表1Corona_NLP、Covid19_new_tweet、Twitter Sentiment三个公开数据集情感类别的统计结果
对比试验模型说明:
本发明将教师模型和学生模型与以下多个模型相比较,其中包括一些经典情感分类方法及目前使用最广泛的经典预训练模型:
朴素贝叶斯(Naive Bayes)是基于贝叶斯定义和特征条件独立假设的分类器方法。该模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。
支持向量机(support vector machines)的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机。
决策树(Decision Tree)是一种基于树结构进行决策判断的模型,它通过多个条件判别过程将数据集分类,最终获取需要的结果。
随机森林(Random Forest)即建立多个决策树并将他们融合起来得到一个更加准确和稳定的模型,是集成算法思想和随机选择特征的结合。
双向长短期记忆网络(Bi-LSTM)是由前向LSTM与后向LSTM组合而成。通过BiLSTM可以更好的捕捉双向的语义依赖。
TextCNN主要使用了一维卷积层和最大池化层。对N-gram特征进行组合和筛选,获得不同抽象层次的语义信息。
Bert是由多个transformer编码器堆叠而成的。每个transformer编码器由两个子层组成,即多头自注意力层和前馈神经网络层。BERT已成为最流行和通用的语言模型模型之一。
实验指标说明:
本发明选取Acc(Accuracy),PR(Precision),F1(F1 score)这几个评估分类效果来验证模型的有效性。Acc和PR指标,共同表示所有预测样本中情绪的准确度。F1得分体现模型对样本情绪的区分能力。
在多分类任务中,TPi是将情感类别为i的样本成功预测的数量。TNi表示情绪i中负样本成功预测为负的情况。FPi是负样本错误地预测为正。FNi则为将情感类型为i的数据错误预测的情况,其中i∈{1,2,...,N},N为情感类别数。
准确率是指,对于给定的测试数据集,分类器正确分类的样本数与总样本数之比,也就是预测正确的概率。计算公式为:
但是准确率作为最常用的指标,当出现样本不均衡的情况时,并不能合理反映模型的预测能力。因此,引入Precision。PR是预测结果中,预测为某一情感类型的样本中预测正确的概率。它是针对预测结果而言的,可以有效反映出模型的精确度。基于此,Precision被定义为:
为体现模型的全面性,先计算Recall指标:
Precision和Recall是一对矛盾的度量,一般来说,Precision高时,Recall值往往偏低;而Precision值低时,Recall值往往偏高。当分类置信度高时,Precision偏高;分类置信度低时,Recall偏高。为了能够综合考虑这两个指标,F-measure被提出(Precision和Recall的加权调和平均),即:
F1的核心思想在于,在尽可能的提高Precision和Recall的同时,也希望两者之间的差异尽可能小。
实验配置:
对于Corona_NLP数据集。在主题模型部分,将主题数设置为30,将编码器中MLP层的维度K和S分别设置为256和512。主题嵌入表示的维数F等于BERT-base模型中每一个词元对应的向量长度F',均设为768。激活函数LeakyReLU的超参数η设为使0.01。Dirichlet先验尽可能稀疏,并将Dirichlet超参数α设置为0.0001。噪声与主题分布β的比值定义为0.05。对于BERT模型部分,教师模型和学生模型分别使用12层和6层的transforner编码器进行训练。每批样本的大小为16,共训练5个时期。
训练过程中,Adam优化器的学习率为5e-5。为防止模型过拟合,dropout参数被设为0.1。所有模型在Pytorch上实现,并在1*RTX3090 24G GPU上运行。
由分析可知,本发明中学生模型在分类性能方面达到与教师模型相同水平,同时有效降低模型时延,压缩网络参数。图6展示模型在Corona_NLP验证集上分类准确率随迭代次数的变化,随着迭代次数的增加,分类准确率不断提升,分类性能不断提升至较高水平。图7展示模型在Corona_NLP验证集上损失值随迭代次数的变化结果,损失值随迭代次数的增加逐渐稳定在极小的数值上,可见模型分类效果准确,具有较高的鲁棒性。由图8可以看出分类目标损失Lc随迭代次数的增加,稳定在0.38的较小值,由此说明学生模型的分类预测值与实际值间差距较小,分类性能高。图9展示软交叉熵损失函数Lpred随迭代次数的增加逐渐趋于平稳,并稳定在1.04左右,表明蒸馏策略有效并取得较好效果。图10、图11分别展示横向蒸馏目标函数值Lwr-angle和纵向蒸馏目标函数值Lltr-angle随迭代次数的变化稳定在极小数值,有效提升蒸馏效果,使得学生模型具有与教师模型同等的分类能力。
如表2所示,展示了在Corona_NLP、Covid19_new_tweet、Twitter Sentiment三个公开数据集上进行实验的整体结果;
表2在Corona_NLP、Covid19_new_tweet、Twitter Sentiment三个公开数据集上进行实验的整体结果
由分析可知,本发明模型在分类性能方面高于现有的研究成果。尤其对于主题特征较为明显的Corona_NLP数据集和小型多分类数据集Covid19_new_tweet,本发明模型表现出显著的优越性。在三个公共数据集上进行试验,验证了提出的方法的优越性。
对所公开的实施例的上述说明,使本领域专业技术人员能够使用本发明。同时以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (7)

1.一种基于主题增强和知识蒸馏的多策略情感分析方法,其特征在于,所述方法包括以下步骤:
步骤1,获取数据集,对数据集进行数据预处理获得真实文本D,真实文本D={d1,d2,..,dj,..,dn}中包含n条句子dj,j∈{1,2,...,n},句子中包含单词;将每条句子dj使用词袋模型表示成句子词袋表示V为真实文本D中不重复的单词的数量;
步骤2,训练教师模型;
步骤2.1,教师模型包括主题模型和BERT-base模型,将句子词袋表示作为主题模型的输入,句子词袋表示/>通过主题模型的编码器转换为主题分布θ,主题分布θ通过主题模型的解码器转换为包含主题信息的主题嵌入表示zt,zt∈RF,F表示维度;
步骤2.2,将真实文本D作为BERT-base模型的输入,得到句子向量表示E,句子向量表示E作为BERT-base模型中12层编码器的输入,将每一层编码器输出的第一个词元组成12维包含语义信息的特征向量H;
步骤2.3,将主题嵌入表示zt与特征向量H结合,得到包含语义信息和主题信息的句子向量v,完成对教师模型的训练;
步骤3,训练学生模型,学生模型包括含有6层编码器的BERT-base模型,分别利用BERT-base模型中词元之间的横向蒸馏目标函数Lwr-angle和纵向蒸馏目标函数Lltr-angle、软交叉熵损失函数Lpred建立教师模型和学生模型之间的关系,完成学生模型进行训练;具体为:
横向蒸馏目标函数Lwr-angle表示为:
Lwr-angle=MSE(ψA(hδ,hφ,hλ),ψC(hδ′′,hφ′′,hλ′′));
教师模型中BERT-base模型内每层编码器输出的隐向量组成三维矩阵;其中,hδ,hφ,hλ∈RF'为教师模型中任意横向相邻的三个词元,δ,φ,λ∈{1,2....,B},hδ′′,hφ′′,hλ”∈RF'为学生模型中任意横向相邻的三个词元,δ',φ',λ'∈{1,2....,B};ψA(hδ,hφ,hλ),ψC(hδ′′,hφ′′,hλ′′)分别为教师模型及学生模型任意横向相邻的三个词元的cos距离;F'=F,B表示句子dj对应的向量长度;MSE(·)为均方误差计算公式;
纵向蒸馏目标函数Lltr-angle表示为:
Lltr-angle=MSE(ψA(hμ,hω,hτ),ψC(hμ′′,hω′′,hτ′′))
其中,hμ,hω,hτ∈RF'为教师模型任意纵向相邻的三个词元,μ,ω,τ∈{1,2,...,12};hμ′′,hω′′,hτ′′∈RF'为学生模型任意纵向相邻的三个词元,μ',ω',τ'∈{1,2,...,6};ψA(hμ,hω,hτ),ψC(hμ′′,hω′′,hτ′′)分别为教师模型及学生模型任意纵向相邻的三个词元的cos距离;
让学生模型直接蒸馏教师模型的最终预测logit,软交叉熵损失函数Lpred
其中,Q是用于控制软标签重要程度的超参数;qr,ql∈RF'表示logit输出的分类结果,其中,r,l∈{1,2,...,M},M为类别数量;
步骤4,将待分析数据集输入训练好的学生模型中,通过分类层输出每个类别的概率y,即得到分析结果。
2.根据权利要求1所述的基于主题增强和知识蒸馏的多策略情感分析方法,其特征在于,
步骤1中所述的每条句子dj使用词袋模型表示成句子词袋表示具体步骤如下:
将真实文本D={d1,d2,...,dj,...,dn}中重复的单词去除,得到词汇表Y={w1,w2,...,wi,...,wV},i∈[1,2,...,V],句子dj通过TF-IDF方法得到句子词袋表示具体计算公式如下:
其中,Ni,j表示单词wi在句子dj中出现的次数,TFi,j表示单词wi在句子dj中出现的频率,|j:wi∈dj|表示包含单词wi的句子dj的数量;IDFi为单词wi在真实文本D中的流行程度;表示句子dj中单词wi的语义相关性。
3.根据权利要求1所述的基于主题增强和知识蒸馏的多策略情感分析方法,其特征在于,步骤2.1中具体步骤如下:
步骤2.1.1,主题模型的编码器包括多层感知器MLP,通过多层感知器MLP中批标准化BN层及激活函数LeakyReLU将句子词袋表示映射得到K维:
zo=max(ro,η*ro);
其中,Wo∈RK×V,bo∈RK为全连接层的权重矩阵和偏置项,ro为通过BN(·)进行归一化后的隐层;η为激活函数LeakyReLU的超参数,zo为经过激活函数LeakyReLU的输出;
步骤2.1.2,随后,通过多层感知器MLP中批标准化BN层及softmax函数转换将zo映射到S维,得到文档-主题分布θm
θm=softmax(BN(Wezo+be));
其中,We∈RS×K,be∈RS为全连接层的权重矩阵和偏置项;
步骤2.1.3,在文档-主题分布θm中添加噪声得到主题分布θ:
其中,β∈[0,1]表示噪声的混合比例;Dirichlet(α)为狄利克雷分布,其中α是分布参数;
步骤2.1.4,主题模型的解码器包括多层感知器MLP,通过多层感知器MLP中批标准化BN层及激活函数LeakyReLU将主题分布θ映射到F维,得到主题嵌入表示zt
rt=BN(Wtθ+bt);
zt=max(rt,η*rt);
其中,Wt∈RF×S,bt∈RF是全连接层的权重矩阵和偏置项,rt为通过BN(·)进行归一化的输出隐向量。
4.根据权利要求3所述的基于主题增强和知识蒸馏的多策略情感分析方法,其特征在于,在主题模型训练过程中,定义主题模型损失函数Lt度量重构分布与真实之间的差异程度,具体为:
主题模型的解码器将主题嵌入表示zt进行重构,生成V维的重构分布
其中,Wa∈RV×F,ba∈RV是全连接层的权重矩阵和偏置项;
主题模型损失函数Lt为:
其中,主题模型的目标包括重建项和基于MMD的正则化项,γ是用来平衡两部分的超参数,MMD为计算最大均值差异,用来度量主题信息分布Qθ与先验随机样本分布Pθ之间的距离;为重构分布/>的同维拆分。
5.根据权利要求1所述的基于主题增强和知识蒸馏的多策略情感分析方法,其特征在于,步骤2.2中,具体为:
步骤2.2.1,句子向量表示E如下:
E=Etok+Eseg+Epos
其中,Etok是语义级别的句子的向量表示;Eseg是辅助区别句子对中的两个句子的向量表示;Epos是真实文本的位置向量,其中Etok,Eseg,Epos∈RB×F',B表示句子dj对应的向量长度,F'代表BERT-base模型中每一个词元对应的向量长度,令F'=F;
步骤2.2.2,句子向量表示E作为BERT-base模型中12层编码器的输入,将每一层编码器输出的第一个词元组成12维包含语义信息的特征向量H:
H=BERT{h1,h2,...,hu,...,h12};
其中,hu∈RF'是u层编码器输出的第一个词元的向量表示,u∈{1,2,...,12};H∈R12×F'是BERT-base模型的输出。
6.根据权利要求1所述的基于主题增强和知识蒸馏的多策略情感分析方法,其特征在于,步骤2.3中,具体为:
步骤2.3.1,利用主题嵌入表示zt进行引导,计算特征向量H中每个词元的注意力概率分布:
H=BERT{h1,h2,...,hu,...,h12};
f(hu,zt)=zt Ttanh(Wphu+bp);
其中,hu是u层编码器输出的第一个词元的向量表示,u∈{1,2,...,12};Wp∈RF'×F',bp∈RF'是全连接层权重矩阵和偏置项;
步骤2.3.2,计算出注意力分布αu并得到包含语义信息和主题信息的句子向量v:
其中,αu∈RF'×F',v∈RF'
7.根据权利要求1所述的基于主题增强和知识蒸馏的多策略情感分析方法,其特征在于,定义分类目标损失Lc估量训练好的学生模型的预测值与真实值的不一致程度:
其中,yz表示分类层输出每个类别的概率,表示真实标签分布;M为类别数量。
CN202410160917.1A 2024-02-05 2024-02-05 一种基于主题增强和知识蒸馏的多策略情感分析方法 Active CN117708336B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410160917.1A CN117708336B (zh) 2024-02-05 2024-02-05 一种基于主题增强和知识蒸馏的多策略情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410160917.1A CN117708336B (zh) 2024-02-05 2024-02-05 一种基于主题增强和知识蒸馏的多策略情感分析方法

Publications (2)

Publication Number Publication Date
CN117708336A CN117708336A (zh) 2024-03-15
CN117708336B true CN117708336B (zh) 2024-04-19

Family

ID=90153820

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410160917.1A Active CN117708336B (zh) 2024-02-05 2024-02-05 一种基于主题增强和知识蒸馏的多策略情感分析方法

Country Status (1)

Country Link
CN (1) CN117708336B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881671A (zh) * 2020-09-27 2020-11-03 华南师范大学 一种属性词提取方法
CN112988975A (zh) * 2021-04-09 2021-06-18 北京语言大学 一种基于albert和知识蒸馏的观点挖掘方法
CN114168709A (zh) * 2021-12-03 2022-03-11 中国人民解放军国防科技大学 一种基于轻量化预训练语言模型的文本分类方法
CN116204644A (zh) * 2023-03-09 2023-06-02 重庆邮电大学 一种基于VAE和Attention的主题增强文本情感分类方法
CN116384373A (zh) * 2023-03-22 2023-07-04 西北大学 一种基于知识蒸馏框架的方面级情感分析方法
CN116595975A (zh) * 2023-07-17 2023-08-15 四川大学 一种基于句信息进行词信息增强的方面级情感分析方法
CN117115505A (zh) * 2023-06-15 2023-11-24 北京工业大学 一种结合知识蒸馏与对比学习的情感增强继续训练方法
WO2023225858A1 (zh) * 2022-05-24 2023-11-30 中山大学 一种基于常识推理的阅读型考题生成系统及方法
CN117217223A (zh) * 2023-07-24 2023-12-12 湖南中医药大学 基于多特征嵌入的中文命名实体识别方法及系统
CN117494762A (zh) * 2023-06-27 2024-02-02 马上消费金融股份有限公司 学生模型的训练方法、素材处理方法、装置及电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11797862B2 (en) * 2020-01-22 2023-10-24 Google Llc Extreme language model compression with optimal sub-words and shared projections
US20230196024A1 (en) * 2021-12-21 2023-06-22 Genesys Cloud Services, Inc. Systems and methods relating to knowledge distillation in natural language processing models

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881671A (zh) * 2020-09-27 2020-11-03 华南师范大学 一种属性词提取方法
CN112988975A (zh) * 2021-04-09 2021-06-18 北京语言大学 一种基于albert和知识蒸馏的观点挖掘方法
CN114168709A (zh) * 2021-12-03 2022-03-11 中国人民解放军国防科技大学 一种基于轻量化预训练语言模型的文本分类方法
WO2023225858A1 (zh) * 2022-05-24 2023-11-30 中山大学 一种基于常识推理的阅读型考题生成系统及方法
CN116204644A (zh) * 2023-03-09 2023-06-02 重庆邮电大学 一种基于VAE和Attention的主题增强文本情感分类方法
CN116384373A (zh) * 2023-03-22 2023-07-04 西北大学 一种基于知识蒸馏框架的方面级情感分析方法
CN117115505A (zh) * 2023-06-15 2023-11-24 北京工业大学 一种结合知识蒸馏与对比学习的情感增强继续训练方法
CN117494762A (zh) * 2023-06-27 2024-02-02 马上消费金融股份有限公司 学生模型的训练方法、素材处理方法、装置及电子设备
CN116595975A (zh) * 2023-07-17 2023-08-15 四川大学 一种基于句信息进行词信息增强的方面级情感分析方法
CN117217223A (zh) * 2023-07-24 2023-12-12 湖南中医药大学 基于多特征嵌入的中文命名实体识别方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Universal-KD:Attention-based Output-Grounded Intermediate Layer Knowledge Distillation;yimeng wu 等;《Proceedings of the 2021Conference on Empirical Methods in Natural Language Processing》;20211130;7649-7661 *
基于Bert模型的框架类型检测方法;高李政;周刚;罗军勇;黄永忠;;《信息工程大学学报》;20200415(第2期);90-96 *
基于多任务学习和知识蒸馏的情感分析方法研究;卫沛旭;《中国优秀硕士学位论文全文数据库 信息科技辑》;20210915(第9期);I138-821 *
基于特征融合分段卷积神经网络的情感分析;周泳东 等;《计算机工程与设计》;20191014;第40卷(第10期);3009-3013+3029 *

Also Published As

Publication number Publication date
CN117708336A (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
CN112214995B (zh) 用于同义词预测的分层多任务术语嵌入学习
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN106980608A (zh) 一种中文电子病历分词和命名实体识别方法及系统
CN111079409B (zh) 一种利用上下文和方面记忆信息的情感分类方法
CN114564565A (zh) 面向公共安全事件分析的深度语义识别模型及其构建方法
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN112735597A (zh) 半监督自学习驱动的医学文本病症辨识方法
CN112989033B (zh) 基于情绪类别描述的微博情绪分类方法
CN115204143B (zh) 一种基于prompt的文本相似度计算方法及系统
CN117094291B (zh) 基于智能写作的自动新闻生成系统
CN111723572B (zh) 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法
CN117574904A (zh) 基于对比学习和多模态语义交互的命名实体识别方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN114265936A (zh) 一种科技项目文本挖掘的实现方法
Liu et al. Dual-feature-embeddings-based semi-supervised learning for cognitive engagement classification in online course discussions
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN114757183A (zh) 一种基于对比对齐网络的跨领域情感分类方法
CN114722798A (zh) 一种基于卷积神经网络和注意力机制的反讽识别模型
Gao et al. REPRESENTATION LEARNING OF KNOWLEDGE GRAPHS USING CONVOLUTIONAL NEURAL NETWORKS.
Mingyu et al. AFR-BERT: attention-based mechanism feature relevance fusion multimodal sentiment analysis model
CN113051886A (zh) 一种试题查重方法、装置、存储介质及设备
CN116956228A (zh) 一种技术交易平台的文本挖掘方法
CN117708336B (zh) 一种基于主题增强和知识蒸馏的多策略情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant