CN117708336A - 一种基于主题增强和知识蒸馏的多策略情感分析方法 - Google Patents
一种基于主题增强和知识蒸馏的多策略情感分析方法 Download PDFInfo
- Publication number
- CN117708336A CN117708336A CN202410160917.1A CN202410160917A CN117708336A CN 117708336 A CN117708336 A CN 117708336A CN 202410160917 A CN202410160917 A CN 202410160917A CN 117708336 A CN117708336 A CN 117708336A
- Authority
- CN
- China
- Prior art keywords
- model
- topic
- sentence
- representation
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 51
- 238000004458 analytical method Methods 0.000 title claims abstract description 32
- 238000013140 knowledge distillation Methods 0.000 title claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 85
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 36
- 238000004821 distillation Methods 0.000 claims abstract description 26
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 20
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 4
- 238000002156 mixing Methods 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims 1
- 238000005259 measurement Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 29
- 230000000694 effects Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000003066 decision tree Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 208000025721 COVID-19 Diseases 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000013145 classification model Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 241000711573 Coronaviridae Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000000699 topical effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 239000013585 weight reducing agent Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0495—Quantised networks; Sparse networks; Compressed networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/045—Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明属于情感分析技术领域,涉及一种基于主题增强和知识蒸馏的多策略情感分析方法;包括对数据集进行预处理获得真实文本;将真实文本中句子使用词袋模型表示成句子词袋表示并作为主题模型的输入,生成主题嵌入表示;将真实文本作为BERT‑base模型的输入获得句子向量表示,通过12层编码器生成12维包含语义信息的特征向量,将主题嵌入表示与特征向量结合,得到包含语义信息和主题信息的句子向量,完成教师模型训练;通过三种蒸馏策略及分类目标损失,对学生模型进行训练,将待分析的数据集输入训练好的学生模型中,得到分类结果;相比现有的情感分析模型,本发明具有更高的分类准确性和模型可解释性,降低模型时延,压缩网络参数。
Description
技术领域
本发明属于情感分析技术领域,具体涉及一种基于主题增强和知识蒸馏的多策略情感分析方法。
背景技术
文本情感分析,是对带有主观感情色彩的文本进行分类、处理、归纳和推理的过程,情感极性分为积极、消极、中性等。随着网络上社交媒体的快速发展,互联网(如推特和论坛以及社会服务网络等)上产生大量的评论信息,往往表达了人们的各种主观情绪以及情感倾向性。
按照使用方法的不同,可以将现有情感分析研究划分为基于情感词典的方法、基于机器学习的方法和基于深度学习的方法。基于情感词典的文本情感分类方法大多时候只是将文本看作字词的集合,而不考虑文本中字词之间的关系。在此基础上,基于机器学习的文本情感分类方法被提出。它们能够对多种特征进行建模分析,在数据规模较大时也具有保持稳定分析和处理的能力,并具有较好的分类效果,但基于机器学习的文本情感分类方法主要集中在人工特征选取和分类器选取,需要消耗大量的时间和人力进行训练集标注和特征选择,而且该方法属于浅层的学习算法,不能刻画复杂函数,无法适应海量文本数据的处理,且不能充分考虑上下文语义。随着深度学习算法发展,越来越多的专家学者将深度学习应用于文本情感分类方法中。这些模型的广泛研究进步表明,语义信息对情感分析任务具有重大的意义。现有的研究中,已开始联合使用文档的主题信息和语义信息来提升情感分类效果。然而,如何高效提取并结合这些信息仍存在大量空白。同时随着预训练模型的广泛应用,模型参数量大,训练时间较长等问题逐一显现。
目前同时运用这两类信息引导情感分类的模型仍不多,例如,Encodingsyntactic dependency and topical information for social emotionclassification[C].Proceedings of the 42nd International ACM SIGIR Conferenceon research and development in information retrieval. 2019: 881-884中提出aGated DR-G-T model解决了这一问题,通过递归神经网络学习文档的特征向量,利用门控层结合预训练的LDA模型学习到的主题信息,但分类模型与主题模型是单独训练的,不能联合提取语义特征和主题特征,且训练时间开销较大。An end-to-end topic-enhancedself-attention network for social emotion classification[C].Proceedings ofthe web conference. 2020: 2210-2219中提出a TESAN model同时训练分类模型和主题模型,设计融合门将文档向量与主题嵌入相结合,构成用于社会情感分类的最终文档表示。但该模型只是对主题信息和语义信息进行简单的融合,并未对其进行筛选,有针对性地关注更加关键的信息,此外,在模型特征提取部分对文档高级的语义信息学习能力有限。且现有预训练模型中,普遍存在模型参数量大,训练时间较长等问题,如何减少模型训练开销,实现模型轻量化亟待解决。
发明内容
本发明针对上述现有技术中存在的问题,提供一种基于主题增强和知识蒸馏的多策略情感分析方法,利用主题嵌入表述引导训练模型,融合主题信息和语义信息最大化主题分布与词分布之间的相互信息来提升模型的分类性能及可解释性,同时通过三重蒸馏对学生模型进行训练,实现模型轻量化。
为了实现上述目的,本发明采用以下技术方案:一种基于主题增强和知识蒸馏的多策略情感分析方法,所述方法包括以下步骤:
步骤1,获取数据集,对数据集进行数据预处理获得真实文本,真实文本中包含n条句子,,句子中包含单词;将每条句子使用词袋模型表示成句子词袋表示,,为真实文本中不重复的单词的数
量;
步骤2,训练教师模型;
步骤2.1,教师模型包括主题模型和BERT-base模型,将句子词袋表示作为主题
模型的输入,句子词袋表示通过主题模型的编码器转换为主题分布,主题分布通过
主题模型的解码器转换为包含主题信息的主题嵌入表示,,表示维度;
步骤2.2,将真实文本作为BERT-base模型的输入,得到句子向量表示,句子向
量表示作为BERT-base模型中12层编码器的输入,将每一层编码器输出的第一个词元组
成12维包含语义信息的特征向量;
步骤2.3,将主题嵌入表示与特征向量结合,得到包含语义信息和主题信息的
句子向量,完成对教师模型的训练;
步骤3,训练学生模型,学生模型包括含有6层编码器的BERT-base模型, 分别利用
BERT-base模型中词元之间的横向蒸馏目标函数和纵向蒸馏目标函数、软交
叉熵损失函数建立教师模型和学生模型之间的关系,完成学生模型进行训练;
步骤4,将待分析数据集输入训练好的学生模型中,通过分类层输出每个类别的概
率,即得到分析结果。
进一步地,步骤1中所述的每条句子使用词袋模型表示成句子词袋表示,具
体步骤如下:
将真实文本中重复的单词去除,得到词汇表,,句子通过TF-IDF方法得到句子词袋表示,具体
计算公式如下:
;
;
;
,;
其中,表示单词在句子中出现的次数,表示单词在句子中出现
的频率,表示包含单词的句子的数量;为单词在真实文本中的流行
程度;如果包含该单词的句子越少,则越大,说明该单词具有良好的类别区分能力;表示句子中单词的语义相关性。
进一步地,步骤2.1中具体步骤如下:
步骤2.1.1,利用主题模型的编码器将句子词袋表示转化为主题分布,以此来学习
句子潜在的语义信息;主题模型的编码器包括多层感知器MLP,通过多层感知器MLP中批标
准化BN层及激活函数LeakyReLU将句子词袋表示映射得到维:
;
;
其中,为全连接层的权重矩阵和偏置项,为通过进行归一
化后的隐层;为激活函数LeakyReLU的超参数,为经过激活函数LeakyReLU的输出;
步骤2.1.2,随后,通过多层感知器MLP中批标准化BN层及softmax函数转换将映
射到维,得到文档-主题分布:
;
其中,为全连接层的权重矩阵和偏置项;
步骤2.1.3,为了学习到更加连贯的主题信息,在文档-主题分布中添加噪声,得到主题分布:
;
其中,表示噪声的混合比例;为狄利克雷分布,其中是分布
参数;
步骤2.1.4,主题模型的解码器包括多层感知器MLP,通过多层感知器MLP中批标准
化BN层及激活函数LeakyReLU将主题分布映射到维,得到主题嵌入表示:
;
;
其中,是全连接层的权重矩阵和偏置项,为通过进行归一
化的输出隐向量。
进一步地,在主题模型训练过程中,定义主题模型损失函数来度量重构分布与
真实之间的差异程度,主题模型损失函数越小,主题模型的鲁棒性就越好;
主题模型的解码器将主题嵌入表示进行重构,生成维的重构分布,
其中,是全连接层的权重矩阵和偏置项;
主题模型损失函数为:
;
其中, 主题模型的目标包括重建项和基于MMD的正则化项,是用来平衡两部分
的超参数,MMD为计算最大均值差异,用来度量主题信息分布与先验随机样本分布之
间的距离;为重构分布的同维拆分。
进一步地,步骤2.2中,具体为:
步骤2.2.1,句子向量表示如下:
;
其中,是语义级别的句子的向量表示; 是辅助区别句子对中的两个句子
的向量表示;是真实文本的位置向量,其中,表示句子对应的向
量长度,代表BERT-base模型中每一个词元对应的向量长度,令;
步骤2.2.2,句子向量表示作为BERT-base模型中12层编码器的输入,将每一层
编码器输出的第一个词元组成12维包含语义信息的特征向量:
;
其中,是u层编码器输出的第一个词元的CLS向量表示,;是BERT-base模型的输出。
进一步地,步骤2.3中,具体为:
步骤2.3.1,利用主题嵌入表示进行引导,计算特征向量中每个词元的注意力
概率分布:
;
;
其中,是u层编码器输出的第一个词元的向量表示,;是全连接层权重矩阵和偏置项;越大,意味着对应的单词隐含主
题信息的概率更大;
步骤2.3.2,计算出注意力分布并得到包含语义信息和主题信息的句子向量:
;
;
其中,,。
进一步地,步骤3中,具体为:
横向蒸馏目标函数表示为:
;
教师模型中BERT-base模型内每层编码器输出的隐向量组成三维矩阵;其中,为教师模型中任意横向相邻的三个词元,,为学生模型中任意横向相邻的三个词元, ,分别为教师模型及学生模型任意横向相邻的三个词元的cos距
离;为均方误差计算公式;
纵向蒸馏目标函数表示为:
其中,为教师模型任意纵向相邻的三个词元,;为学生模型任意纵向相邻的三个词元,;,分别为教师模型及学生模型任意纵向相邻的三个词元的cos距离;
让学生模型直接蒸馏教师模型的最终预测logit,软交叉熵损失函数:
其中,是用于控制软标签重要程度的超参数;表示logit输出的分类结
果,其中,,为类别数量。
进一步地,定义分类目标损失估量训练好的学生模型的预测值与真实值的不一
致程度:
其中,表示分类层输出每个类别的概率,表示真实标签分布;为类别数量。
使用KL散度来衡量两者分布差异,通过优化以上损失函数可以使得学生网络的logit输出
尽可能和教师网络的logit输出相似,从而达到学习的目的。
在本发明中,设计了一个新的模型,并提出一种新型知识蒸馏策略来解决上述限制。具体来说,模型由教师模型及学生模型两大部分组成。其中,教师模型包含三个部分:特征提取模块、主题抽取模块、分类器。首先,在特征提取部分,利用Bert模型学习文档的语义信息,传统Bert文本分类模型常见做法为将Bert最后一层输出的第一个词元位置(CLS位置)当作句子的表示,后接全连接层进行分类。在本发明中,除去第一层输入层,有12个编码器层,每个编码器层的第一个词元(CLS)向量都可以当作句子向量,可以抽象的理解为,编码器层越浅,句子向量越能代表低级别语义信息,越深,代表更高级别语义信息。因此,这里将第1层到第12层的CLS向量同时抽取,生成由浅及深的层级化句子向量作为分类器的输入,从而满足既想得到有关词的特征,又想得到语义特征的目的。
此外,在主题模型模块,利用基于Wasserstein自动编码器(WAE)的方法进行主题建模,保留Dirichlet先验,并将聚合后验与先验相匹配,从而促成更好的重构效果,同时实现主题可视化,有效增强模型可解释性。同时,利用注意力融合机制,充分利用语义信息及主题信息。通过主题引导筛选赋予更关键的词和更贴合语义的主题词更高的权重,显著提升模型的分类效果。
本发明具有以下技术效果:(1)本发明提出一种基于主题增强和知识蒸馏的多策略情感分析方法用于情感分类任务;基于词匹配进行深入研究,引入注意力融合机制,利用主题嵌入表示引导语义特征进行学习,充分利用语义信息及主题信息,从而满足既想得到有关词的特征,又想得到语义特征的目的;显著提升模型的分类效果。
(2)本发明提出一种新的知识蒸馏策略,通过融合主题信息和语义信息最大化主题分布与词分布之间的互信息来提升模型的分类性能及可解释性,同时通过三重蒸馏策略对学生模型进行训练,对模型实现轻量化处理,弥补了压缩模型所带来的信息缺失问题,在提高模型分类效果的同时,大大缩减了模型的训练时长。
附图说明
图1是本发明一种基于主题增强和知识蒸馏的多策略情感分析方法的流程图。
图2为本发明一种基于主题增强和知识蒸馏的多策略情感分析方法的总模型架构图。
图3是本发明的教师模型架构图。
图4是本发明的蒸馏策略示意图。
图5是本发明的学生模型架构图。
图6是本发明在Corona_NLP验证集上准确率随迭代次数的变化曲线。
图7是本发明在Corona_NLP验证集上损失结果随迭代次数的变化曲线。
图8是本发明在Corona_NLP数据集训练过程中分类目标损失随迭代次数的变化
曲线。
图9是本发明在Corona_NLP数据集训练过程中软交叉熵损失函数随迭代次数
的变化曲线。
图10是本发明在Corona_NLP数据集训练过程中词元之间横向蒸馏目标函数值随迭代次数的变化曲线。
图11是本发明在Corona_NLP数据集训练过程中词元之间纵向蒸馏目标函数值随迭代次数的变化曲线。
具体实施方式
下面将对本发明的内容和附图作详细说明,本实施例在以本发明技术方案为前提下进行实施,涉及到详细的实施方案与操作过程,但本发明的保护范围不仅限于下列的具体实施例,在本发明中使用的术语仅仅是出于描述特定实施例的目的,而非旨在限制本发明。
如图1一种基于主题增强和知识蒸馏的多策略情感分析方法的流程图、图2总模型架构图所示,一种基于主题增强和知识蒸馏的多策略情感分析方法,所述方法包括以下步骤:
步骤1,获取数据集,对数据集进行数据预处理获得真实文本,真实文本中包含n条句子,,句子中包含单词;将每条句子使用词袋模型表示成句子词袋表示,,为真实文本中不重复的单词的数
量;
步骤1.1,对数据集进行数据预处理,数据集中均包含单词、符号、URLs、hashtags
和mentions,文字对文本文本情感预测具有积极作用,而符号、URLs和mentions可以忽略。
删除停用词和出现不超过三次的词;同时,在文本内容中,存在一部分的拼写错误、信息缺
失或者重复等情况。因此,使用tweet-preprocessor对数据进行预处理,并利用spaCy进行
词形还原,获得真实文本;真实文本D为向量矩阵,以二进制形式存储;
步骤1.2,将真实文本中重复的单词去除,得到词汇表,,句子通过TF-IDF方法得到句子词袋表示,具体
计算公式如下:
;
;
;
,;
其中,表示单词在句子中出现的次数,表示单词在句子中出现
的频率,表示包含单词的句子的数量;为单词在真实文本中的流行
程度;表示句子中单词的语义相关性。
步骤2,训练教师模型,如图3本发明的教师模型架构图所示;
步骤2.1,教师模型包括主题模型和BERT-base模型;将句子词袋表示作为主题
模型的输入,句子词袋表示通过主题模型的编码器转换为主题分布,主题分布通过
主题模型的解码器转换为包含主题信息的主题嵌入表示,,表示维度;
具体为:步骤2.1.1,通过多层感知器MLP中批标准化BN层及激活函数LeakyReLU将
句子词袋表示映射得到维:
;
;
其中,为全连接层的权重矩阵和偏置项,为通过进行归一
化后的隐层;为激活函数LeakyReLU的超参数,为经过激活函数LeakyReLU的输出;
步骤2.1.2,随后,通过多层感知器MLP中批标准化BN层及softmax函数转换将映
射到维,得到文档-主题分布:
;
其中,为全连接层的权重矩阵和偏置项;
步骤2.1.3,在文档-主题分布中添加噪声,得到主题分布:
;
其中,表示噪声的混合比例;为狄利克雷分布,其中是分布
参数;
步骤2.1.4,主题模型的解码器包括多层感知器MLP,通过多层感知器MLP中批标准
化BN层及激活函数LeakyReLU将主题分布映射到维,得到主题嵌入表示:
;
;
其中,是全连接层的权重矩阵和偏置项,为通过进行归一
化的输出隐向量;
步骤2.1.4,在主题模型训练过程中,定义主题模型损失函数度量重构分布与真
实之间的差异程度,主题模型损失函数越小,主题模型的鲁棒性就越好;
主题模型的解码器将主题嵌入表示进行重构,生成维的重构分布,
其中,是全连接层的权重矩阵和偏置项;表示为的向量形式;
主题模型损失函数为:
;
其中, 主题模型的目标包括重建项和基于MMD的正则化项,是用来平衡两部分的
超参数,MMD为计算最大均值差异,用来度量主题信息分布与先验随机样本分布之间
的距离;为重构分布的同维拆分。
步骤2.2,将真实文本中句子 作为BERT-base
模型的输入,得到句子向量表示,句子向量表示作为BERT-base模型中12层
transformer编码器的输入,将每一层编码器输出的第一个词元组成12维包含语义信息的
特征向量;
具体为:句子向量表示如下:
;
其中,如图2-5所示,表示为的向量形式,是语义级别的句
子的向量表示; 是辅助区别句子对中的两个句子的向量表示;是真实文本的位置
向量,其中,表示句子对应的向量长度,代表BERT-base模型中每
一个词元对应的向量长度,令;
步骤2.2.2,句子向量表示作为BERT-base模型中12层编码器的输入,将每一层
编码器输出的第一个词元组成12维包含语义信息的特征向量:
;
其中,是u层编码器输出的第一个词元的向量表示,;是BERT-base模型的输出。
步骤2.3,将主题嵌入表示与特征向量结合,得到包含语义信息和主题信息的
句子向量,完成对教师模型的训练;
具体为:步骤2.3.1,为了引入主题信息,与上下文信息相结合,利用主题嵌入表示进行引导,计算特征向量中每个词元的注意力概率分布:
;
其中, 是全连接层权重矩阵和偏置项;
步骤2.3.2,计算出注意力分布并得到包含语义信息和主题信息的句子向量:
;
;
其中, ,如图2和图3所示,表示为的向量形式,。中既包含文本的语义信息,同时也包含通过注意力机制引入的主题分布。
步骤3,训练学生模型,如图4蒸馏策略示意图所示,学生模型包括含有6层
transformer编码器的BERT-base模型, 分别利用BERT-base模型中词元之间的横向蒸馏目
标函数和纵向蒸馏目标函数、软交叉熵损失函数建立教师模型和学生模
型之间的关系,完成学生模型进行训练;
BERT-base模型的编码器中每一层输出的隐向量组成三维矩阵,其中每一层输出的隐向量第一个词元与主题嵌入表示相结合生成句子向量,在所有隐向量组成的三维矩阵中,每个词元都会对应自己的向量表示,
词元之间横向关系的蒸馏目标,横向蒸馏目标函数在一个语言模型中,每个词元都是带有独立语境的,而一句话经过语言模型建模的语义信息依赖于每个词元之间的内在关系。因此,本发明不是直接对Embedding、每层的Token向量或者Block输出隐向量来比较他们的分布,让学生模型去直接拟合教师模型中的向量。试图将词元之间的语义关系进行蒸馏,所以把这个目标函数称为横向蒸馏目标函数;
横向来看任选三个token可以看作一个三元组。使用三元组的角度来衡量三个词
元的语境关系,采用三元组(三个词元,限定在一个窗口中)比采用两元组(两个词元)可以
获得更丰富的关系表示,然后采用MSE来计算loss。横向蒸馏目标函数表示为:
;
其中,为教师模型中中任意横向相邻的三个词元,是
教师模型中第u层编码器输出的除CLS向量外第g个词元的向量表示,,,为学生模型中中任
意横向相邻的三个词元, 是学生模型中第层编码器输出的除CLS向量外第个
词元的向量表示,,,分
别为教师模型及学生模型任意横向相邻的三个词元的cos距离;为均方误差计算公
式;
即为计算cos距离,为欧氏距离;是向量相减(得到的是结尾指
向结尾的向量),得到的是结尾指向结尾的向量;
在语言模型中,词元在每一层都可能表示了不同的语义信息,类似于上面横向的
建模,同样可以纵向的建模,试图从纵向将词元之间的语义关系进行蒸馏。纵向蒸馏目标函
数表示为:
其中,为教师模型任意纵向相邻的三个词元,;为学生模型任意纵向相邻的三个词元,;,分别为教师模型及学生模型任意纵向相邻的三个词元的cos距离;
让学生模型直接蒸馏教师模型的最终预测(logit)。为了更好地控制输出概率的
平滑程度,给模型输出的激活函数softmax中加了一个温度参数。在知识蒸馏中,教师模
型预测的概率输出为软标签,所以把这个目标函数称为软交叉熵损失函数:
其中,是用于控制软标签重要程度的超参数;表示logit输出的分类结
果,其中,,为类别数量。
步骤4,将待分析数据集输入训练好的学生模型中,如图5学生模型架构图所示,通
过分类层(分类层利用多类别逻辑回归)输出每个类别的概率,也可以使用dropout和L2
正则化来防止过拟合;即得到分析结果;
定义分类目标损失估量训练好的学生模型的预测值与真实值的不一致程度:
其中,表示分类层输出每个类别的概率,表示真实标签分布;为类别数量。
数据集介绍:
本发明选取三个公共数据集进行实验,来验证教师模型和学生模型的优越性。
Corona_NLP:这是一个英文数据集,包含以下主题标签的用户的推文:#coronavirus, #coronavirusoutbreak, #coronavirusPandemic, #covid19, #covid_19。文本被标记为三种情绪类别:积极、中立和消极。其中,训练集包含26762条推文,验证集、测试机分别包含8920条数据。
Covid19_new_tweet:这个数据集包含来自印度的关于冠状病毒、covid-19等主题的推文。这些推文是在2020年3月23日至2020年7月15日之间收集的。数据集大小为6492,其中5194条数据作为训练集,1298条数据作为测试集。然后文本被标记为四种情绪类别恐惧,悲伤,愤怒和喜悦。
Twitter Sentiment:这是一个来自Kaggle的数据集,包含来自推特用户的20000条日常推文。文本被标记为两种情绪类别,分别是积极和消极。数据集共包含12264个实例,其中将80%设为训练集,20%设为测试集。
对处理后的数据集的统计结果如表1 Corona_NLP、Covid19_new_tweet、TwitterSentiment三个公开数据集情感类别的统计结果所示;
表1 Corona_NLP、Covid19_new_tweet、Twitter Sentiment三个公开数据集情感类别的统计结果
对比试验模型说明:
本发明将教师模型和学生模型与以下多个模型相比较,其中包括一些经典情感分类方法及目前使用最广泛的经典预训练模型:
朴素贝叶斯(Naive Bayes)是基于贝叶斯定义和特征条件独立假设的分类器方法。该模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。
支持向量机(support vector machines)的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机。
决策树(Decision Tree)是一种基于树结构进行决策判断的模型,它通过多个条件判别过程将数据集分类,最终获取需要的结果。
随机森林(Random Forest)即建立多个决策树并将他们融合起来得到一个更加准确和稳定的模型,是集成算法思想和随机选择特征的结合。
双向长短期记忆网络(Bi-LSTM)是由前向LSTM与后向LSTM组合而成。通过BiLSTM可以更好的捕捉双向的语义依赖。
TextCNN主要使用了一维卷积层和最大池化层。对N-gram特征进行组合和筛选,获得不同抽象层次的语义信息。
Bert是由多个transformer编码器堆叠而成的。每个transformer编码器由两个子层组成,即多头自注意力层和前馈神经网络层。BERT已成为最流行和通用的语言模型模型之一。
实验指标说明:
本发明选取Acc(Accuracy),PR(Precision),F1(F1 score)这几个评估分类效果来验证模型的有效性。Acc和PR指标,共同表示所有预测样本中情绪的准确度。F1得分体现模型对样本情绪的区分能力。
在多分类任务中, 是将情感类别为i的样本成功预测的数量。表示情绪i
中负样本成功预测为负的情况。是负样本错误地预测为正。则为将情感类型为i的
数据错误预测的情况,其中,为情感类别数。
准确率是指,对于给定的测试数据集,分类器正确分类的样本数与总样本数之比,也就是预测正确的概率。计算公式为:
但是准确率作为最常用的指标,当出现样本不均衡的情况时,并不能合理反映模型的预测能力。因此,引入Precision。PR是预测结果中,预测为某一情感类型的样本中预测正确的概率。它是针对预测结果而言的,可以有效反映出模型的精确度。基于此,Precision被定义为:
为体现模型的全面性,先计算Recall指标:
Precision和Recall是一对矛盾的度量,一般来说,Precision高时,Recall值往往偏低;而Precision值低时,Recall值往往偏高。当分类置信度高时,Precision偏高;分类置信度低时,Recall偏高。为了能够综合考虑这两个指标,F-measure被提出(Precision和Recall的加权调和平均),即:
F1的核心思想在于,在尽可能的提高Precision和Recall的同时,也希望两者之间的差异尽可能小。
实验配置:
对于Corona_NLP数据集。在主题模型部分,将主题数设置为30,将编码器中MLP层
的维度和分别设置为256和512。主题嵌入表示的维数等于BERT-base模型中每一个
词元对应的向量长度,均设为768。激活函数LeakyReLU的超参数设为使0.01。
Dirichlet先验尽可能稀疏,并将Dirichlet超参数设置为0.0001。噪声与主题分布的
比值定义为0.05。对于BERT模型部分,教师模型和学生模型分别使用12层和6层的
transforner编码器进行训练。每批样本的大小为16,共训练5个时期。
训练过程中,Adam优化器的学习率为5e-5。为防止模型过拟合,dropout参数被设为0.1。所有模型在Pytorch上实现,并在1 * RTX3090 24G GPU上运行。
由分析可知,本发明中学生模型在分类性能方面达到与教师模型相同水平,同时
有效降低模型时延,压缩网络参数。图6展示模型在Corona_NLP验证集上分类准确率随迭代
次数的变化,随着迭代次数的增加,分类准确率不断提升,分类性能不断提升至较高水平。
图7展示模型在Corona_NLP验证集上损失值随迭代次数的变化结果,损失值随迭代次数的
增加逐渐稳定在极小的数值上,可见模型分类效果准确,具有较高的鲁棒性。由图8可以看
出分类目标损失随迭代次数的增加,稳定在0.38的较小值,由此说明学生模型的分类预
测值与实际值间差距较小,分类性能高。图9展示软交叉熵损失函数随迭代次数的增加
逐渐趋于平稳,并稳定在1.04左右,表明蒸馏策略有效并取得较好效果。图10、图11分别展
示横向蒸馏目标函数值和纵向蒸馏目标函数值随迭代次数的变化稳定在极
小数值,有效提升蒸馏效果,使得学生模型具有与教师模型同等的分类能力。
如表2所示,展示了在Corona_NLP、Covid19_new_tweet、Twitter Sentiment三个公开数据集上进行实验的整体结果;
表2 在Corona_NLP、Covid19_new_tweet、Twitter Sentiment三个公开数据集上进行实验的整体结果
由分析可知,本发明模型在分类性能方面高于现有的研究成果。尤其对于主题特征较为明显的Corona_NLP数据集和小型多分类数据集Covid19_new_tweet,本发明模型表现出显著的优越性。在三个公共数据集上进行试验,验证了提出的方法的优越性。
对所公开的实施例的上述说明,使本领域专业技术人员能够使用本发明。同时以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
Claims (8)
1.一种基于主题增强和知识蒸馏的多策略情感分析方法,其特征在于,所述方法包括以下步骤:
步骤1,获取数据集,对数据集进行数据预处理获得真实文本,真实文本中包含n条句子/>,/>,句子中包含单词;将每条句子使用词袋模型表示成句子词袋表示/>,/>,/>为真实文本/>中不重复的单词的数量;
步骤2,训练教师模型;
步骤2.1,教师模型包括主题模型和BERT-base模型,将句子词袋表示作为主题模型的输入,句子词袋表示/>通过主题模型的编码器转换为主题分布/>,主题分布/>通过主题模型的解码器转换为包含主题信息的主题嵌入表示/>,/>,/>表示维度;
步骤2.2,将真实文本作为BERT-base模型的输入,得到句子向量表示/>,句子向量表示/>作为BERT-base模型中12层编码器的输入,将每一层编码器输出的第一个词元组成12维包含语义信息的特征向量/>;
步骤2.3,将主题嵌入表示与特征向量/>结合,得到包含语义信息和主题信息的句子向量/>,完成对教师模型的训练;
步骤3,训练学生模型,学生模型包括含有6层编码器的BERT-base模型,分别利用BERT-base模型中词元之间的横向蒸馏目标函数和纵向蒸馏目标函数/>、软交叉熵损失函数/>建立教师模型和学生模型之间的关系,完成学生模型进行训练;
步骤4,将待分析数据集输入训练好的学生模型中,通过分类层输出每个类别的概率,即得到分析结果。
2.根据权利要求1所述的基于主题增强和知识蒸馏的多策略情感分析方法,其特征在于,
步骤1中所述的每条句子使用词袋模型表示成句子词袋表示/>,具体步骤如下:
将真实文本中重复的单词去除,得到词汇表/>,,句子/>通过TF-IDF方法得到句子词袋表示/>,具体计算公式如下:
;
;
;
,/>;
其中,表示单词/>在句子/>中出现的次数,/>表示单词/>在句子/>中出现的频率,/>表示包含单词/>的句子/>的数量;/>为单词/>在真实文本/>中的流行程度;/>表示句子/>中单词/>的语义相关性。
3.根据权利要求1所述的基于主题增强和知识蒸馏的多策略情感分析方法,其特征在于,步骤2.1中具体步骤如下:
步骤2.1.1,主题模型的编码器包括多层感知器MLP,通过多层感知器MLP中批标准化BN层及激活函数LeakyReLU将句子词袋表示映射得到/>维:
;
;
其中,为全连接层的权重矩阵和偏置项,/>为通过/>进行归一化后的隐层;/>为激活函数LeakyReLU的超参数,/>为经过激活函数LeakyReLU的输出;
步骤2.1.2,随后,通过多层感知器MLP中批标准化BN层及softmax函数转换将映射到维,得到文档-主题分布/>:
;
其中,为全连接层的权重矩阵和偏置项;
步骤2.1.3,在文档-主题分布中添加噪声/>,得到主题分布/>:
;
其中,表示噪声的混合比例;/>为狄利克雷分布,其中/>是分布参数;
步骤2.1.4,主题模型的解码器包括多层感知器MLP,通过多层感知器MLP中批标准化BN层及激活函数LeakyReLU将主题分布映射到/>维,得到主题嵌入表示/>:
;
;
其中,是全连接层的权重矩阵和偏置项,/>为通过/>进行归一化的输出隐向量。
4.根据权利要求3所述的基于主题增强和知识蒸馏的多策略情感分析方法,其特征在于,在主题模型训练过程中,定义主题模型损失函数度量重构分布与真实之间的差异程度,具体为:
主题模型的解码器将主题嵌入表示进行重构,生成/>维的重构分布/>,
;
其中,是全连接层的权重矩阵和偏置项;
主题模型损失函数为:
;
其中,主题模型的目标包括重建项和基于MMD的正则化项,是用来平衡两部分的超参数,MMD为计算最大均值差异,用来度量主题信息分布/>与先验随机样本分布/>之间的距离;/>为重构分布/>的同维拆分。
5.根据权利要求1所述的基于主题增强和知识蒸馏的多策略情感分析方法,其特征在于,步骤2.2中,具体为:
步骤2.2.1,句子向量表示如下:
;
其中,是语义级别的句子的向量表示; />是辅助区别句子对中的两个句子的向量表示;/>是真实文本的位置向量,其中/>,/>表示句子/>对应的向量长度,/>代表BERT-base模型中每一个词元对应的向量长度,令/>;
步骤2.2.2,句子向量表示作为BERT-base模型中12层编码器的输入,将每一层编码器输出的第一个词元组成12维包含语义信息的特征向量/>:
;
其中,是u层编码器输出的第一个词元的向量表示,/>;/>是BERT-base模型的输出。
6.根据权利要求1所述的基于主题增强和知识蒸馏的多策略情感分析方法,其特征在于,步骤2.3中,具体为:
步骤2.3.1,利用主题嵌入表示进行引导,计算特征向量/>中每个词元的注意力概率分布:
;
;
其中,是u层编码器输出的第一个词元的向量表示,/>;是全连接层权重矩阵和偏置项;
步骤2.3.2,计算出注意力分布并得到包含语义信息和主题信息的句子向量/>:
;
;
其中,,/>。
7.根据权利要求1所述的基于主题增强和知识蒸馏的多策略情感分析方法,其特征在于,步骤3中,具体为:
横向蒸馏目标函数表示为:
;
教师模型中BERT-base模型内每层编码器输出的隐向量组成三维矩阵;其中,为教师模型中任意横向相邻的三个词元,/>,/>为学生模型中任意横向相邻的三个词元, />;/>分别为教师模型及学生模型任意横向相邻的三个词元的cos距离;/>为均方误差计算公式;
纵向蒸馏目标函数表示为:
;
其中,为教师模型任意纵向相邻的三个词元,/>;为学生模型任意纵向相邻的三个词元,/>;/>,分别为教师模型及学生模型任意纵向相邻的三个词元的cos距离;
让学生模型直接蒸馏教师模型的最终预测logit,软交叉熵损失函数:
;
其中,是用于控制软标签重要程度的超参数;/>表示logit输出的分类结果,其中,/>,/>为类别数量。
8.根据权利要求1所述的基于主题增强和知识蒸馏的多策略情感分析方法,其特征在于,定义分类目标损失估量训练好的学生模型的预测值与真实值的不一致程度:
;
其中,表示分类层输出每个类别的概率,/>表示真实标签分布;/>为类别数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410160917.1A CN117708336B (zh) | 2024-02-05 | 2024-02-05 | 一种基于主题增强和知识蒸馏的多策略情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410160917.1A CN117708336B (zh) | 2024-02-05 | 2024-02-05 | 一种基于主题增强和知识蒸馏的多策略情感分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117708336A true CN117708336A (zh) | 2024-03-15 |
CN117708336B CN117708336B (zh) | 2024-04-19 |
Family
ID=90153820
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410160917.1A Active CN117708336B (zh) | 2024-02-05 | 2024-02-05 | 一种基于主题增强和知识蒸馏的多策略情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117708336B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111881671A (zh) * | 2020-09-27 | 2020-11-03 | 华南师范大学 | 一种属性词提取方法 |
CN112988975A (zh) * | 2021-04-09 | 2021-06-18 | 北京语言大学 | 一种基于albert和知识蒸馏的观点挖掘方法 |
US20210224660A1 (en) * | 2020-01-22 | 2021-07-22 | Google Llc | Extreme Language Model Compression with Optimal Sub-Words and Shared Projections |
CN114168709A (zh) * | 2021-12-03 | 2022-03-11 | 中国人民解放军国防科技大学 | 一种基于轻量化预训练语言模型的文本分类方法 |
CN116204644A (zh) * | 2023-03-09 | 2023-06-02 | 重庆邮电大学 | 一种基于VAE和Attention的主题增强文本情感分类方法 |
US20230196024A1 (en) * | 2021-12-21 | 2023-06-22 | Genesys Cloud Services, Inc. | Systems and methods relating to knowledge distillation in natural language processing models |
CN116384373A (zh) * | 2023-03-22 | 2023-07-04 | 西北大学 | 一种基于知识蒸馏框架的方面级情感分析方法 |
CN116595975A (zh) * | 2023-07-17 | 2023-08-15 | 四川大学 | 一种基于句信息进行词信息增强的方面级情感分析方法 |
CN117115505A (zh) * | 2023-06-15 | 2023-11-24 | 北京工业大学 | 一种结合知识蒸馏与对比学习的情感增强继续训练方法 |
WO2023225858A1 (zh) * | 2022-05-24 | 2023-11-30 | 中山大学 | 一种基于常识推理的阅读型考题生成系统及方法 |
CN117217223A (zh) * | 2023-07-24 | 2023-12-12 | 湖南中医药大学 | 基于多特征嵌入的中文命名实体识别方法及系统 |
CN117494762A (zh) * | 2023-06-27 | 2024-02-02 | 马上消费金融股份有限公司 | 学生模型的训练方法、素材处理方法、装置及电子设备 |
-
2024
- 2024-02-05 CN CN202410160917.1A patent/CN117708336B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210224660A1 (en) * | 2020-01-22 | 2021-07-22 | Google Llc | Extreme Language Model Compression with Optimal Sub-Words and Shared Projections |
CN111881671A (zh) * | 2020-09-27 | 2020-11-03 | 华南师范大学 | 一种属性词提取方法 |
CN112988975A (zh) * | 2021-04-09 | 2021-06-18 | 北京语言大学 | 一种基于albert和知识蒸馏的观点挖掘方法 |
CN114168709A (zh) * | 2021-12-03 | 2022-03-11 | 中国人民解放军国防科技大学 | 一种基于轻量化预训练语言模型的文本分类方法 |
US20230196024A1 (en) * | 2021-12-21 | 2023-06-22 | Genesys Cloud Services, Inc. | Systems and methods relating to knowledge distillation in natural language processing models |
WO2023225858A1 (zh) * | 2022-05-24 | 2023-11-30 | 中山大学 | 一种基于常识推理的阅读型考题生成系统及方法 |
CN116204644A (zh) * | 2023-03-09 | 2023-06-02 | 重庆邮电大学 | 一种基于VAE和Attention的主题增强文本情感分类方法 |
CN116384373A (zh) * | 2023-03-22 | 2023-07-04 | 西北大学 | 一种基于知识蒸馏框架的方面级情感分析方法 |
CN117115505A (zh) * | 2023-06-15 | 2023-11-24 | 北京工业大学 | 一种结合知识蒸馏与对比学习的情感增强继续训练方法 |
CN117494762A (zh) * | 2023-06-27 | 2024-02-02 | 马上消费金融股份有限公司 | 学生模型的训练方法、素材处理方法、装置及电子设备 |
CN116595975A (zh) * | 2023-07-17 | 2023-08-15 | 四川大学 | 一种基于句信息进行词信息增强的方面级情感分析方法 |
CN117217223A (zh) * | 2023-07-24 | 2023-12-12 | 湖南中医药大学 | 基于多特征嵌入的中文命名实体识别方法及系统 |
Non-Patent Citations (4)
Title |
---|
YIMENG WU 等: "Universal-KD:Attention-based Output-Grounded Intermediate Layer Knowledge Distillation", 《PROCEEDINGS OF THE 2021CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING》, 30 November 2021 (2021-11-30), pages 7649 - 7661 * |
卫沛旭: "基于多任务学习和知识蒸馏的情感分析方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 9, 15 September 2021 (2021-09-15), pages 138 - 821 * |
周泳东 等: "基于特征融合分段卷积神经网络的情感分析", 《计算机工程与设计》, vol. 40, no. 10, 14 October 2019 (2019-10-14), pages 3009 - 3013 * |
高李政;周刚;罗军勇;黄永忠;: "基于Bert模型的框架类型检测方法", 《信息工程大学学报》, no. 2, 15 April 2020 (2020-04-15), pages 90 - 96 * |
Also Published As
Publication number | Publication date |
---|---|
CN117708336B (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | A comparative study of automated legal text classification using random forests and deep learning | |
Shrivastava et al. | An effective approach for emotion detection in multimedia text data using sequence based convolutional neural network | |
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
Karayiğit et al. | Detecting abusive Instagram comments in Turkish using convolutional Neural network and machine learning methods | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN111738004A (zh) | 一种命名实体识别模型的训练方法及命名实体识别的方法 | |
CN107688870B (zh) | 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 | |
CN112749274B (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN117094291B (zh) | 基于智能写作的自动新闻生成系统 | |
CN111723572B (zh) | 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法 | |
CN114265936A (zh) | 一种科技项目文本挖掘的实现方法 | |
CN114742069A (zh) | 一种代码相似度检测方法及装置 | |
Dangi et al. | An efficient model for sentiment analysis using artificial rabbits optimized vector functional link network | |
Phan et al. | A Fuzzy Graph Convolutional Network Model for Sentence-Level Sentiment Analysis | |
CN113051886A (zh) | 一种试题查重方法、装置、存储介质及设备 | |
CN116956228A (zh) | 一种技术交易平台的文本挖掘方法 | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 | |
Kalangi et al. | Sentiment Analysis using Machine Learning | |
Yu et al. | Multi-module Fusion Relevance Attention Network for Multi-label Text Classification. | |
Khan | Comparing the Performance of NLP Toolkits and Evaluation measures in Legal Tech | |
CN117708336B (zh) | 一种基于主题增强和知识蒸馏的多策略情感分析方法 | |
Li et al. | A semi-supervised paraphrase identification model based on multi-granularity interaction reasoning | |
Lora et al. | Ben-sarc: A corpus for sarcasm detection from bengali social media comments and its baseline evaluation | |
Sheykhlan et al. | Pars-HaO: Hate and Offensive Language Detection on Persian Tweets Using Machine Learning and Deep Learning | |
Bensghaier et al. | Investigating the Use of Different Recurrent Neural Networks for Natural Language Inference in Arabic |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |