CN116432660A - 一种情感分析模型的预训练方法、装置和电子设备 - Google Patents
一种情感分析模型的预训练方法、装置和电子设备 Download PDFInfo
- Publication number
- CN116432660A CN116432660A CN202310212870.4A CN202310212870A CN116432660A CN 116432660 A CN116432660 A CN 116432660A CN 202310212870 A CN202310212870 A CN 202310212870A CN 116432660 A CN116432660 A CN 116432660A
- Authority
- CN
- China
- Prior art keywords
- emotion
- sample
- training
- emotion analysis
- analysis model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 332
- 238000012549 training Methods 0.000 title claims abstract description 154
- 238000000034 method Methods 0.000 title claims abstract description 90
- 238000012545 processing Methods 0.000 claims abstract description 29
- 239000013598 vector Substances 0.000 claims description 78
- 238000006467 substitution reaction Methods 0.000 claims description 8
- 230000003362 replicative effect Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 9
- 230000008569 process Effects 0.000 description 14
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 241000393496 Electra Species 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本申请提供一种情感分析模型的预训练方法、装置和电子设备,该方法包括,替换句子样本的情感词和/或非情感词,得到替换后的句子样本;通过替换后的句子样本对基础预训练语言模型进行训练,得到初始情感分析模型;对第二句子样本的词进行情感词处理,得到正样本;通过对比学习的方式,利用正样本对初始情感分析模型进行训练,得到情感分析模型。通过该方法得到的情感分析模型可以达到准确的对文本的情感进行分析的效果。
Description
技术领域
本申请涉及文本情感分析的领域,具体而言,涉及一种情感分析模型的预训练方法、装置和电子设备。
背景技术
目前,一些情感领域的预训练模型往往都是在词级别构建情感相关的预训练任务,通过基础的掩码语言模型任务中引入情感词,使模型学会从文本中词语的含义理解文本的情感。
上述基于词的情感分析存在很大的局限性,在文本的情感分析中只能捕捉文本的部分情感含义,并不能准确的对文本进行情感分析。
因此,如何准确的对文本的情感进行分析,是一个需要解决的技术问题。
发明内容
本申请实施例的目的在于提供一种训练情感分析模型的方法,通过本申请的实施例的技术方案可以达到准确的对文本的情感进行分析的效果。
第一方面,本申请实施例提供了一种训练情感分析模型的方法,包括,替换句子样本的情感词和/或非情感词,得到替换后的句子样本;通过替换后的句子样本对基础预训练语言模型进行训练,得到初始情感分析模型;对第二句子样本的词进行情感词处理,得到正样本;通过对比学习的方式,利用正样本对初始情感分析模型进行训练,得到情感分析模型。
本申请在上述实施例中,通过情感词替换的方式训练模型,可以让模型学会注意情感词来分析文本的情感,通过对比学习的方式可以让模型学会从文本整体分析文本情感。通过该方法得到的情感分析模型可以达到准确的对文本的情感进行分析的效果。
在一些实施例中,利用正样本对初始情感分析模型进行训练,得到情感分析模型,包括:
将正样本所在的一批句子数据中除第二句子样本之外的其它句子作为负样本,得到负样本集合;
利用正样本和负样本集合对初始情感分析模型进行训练,得到情感分析模型,其中,正样本是通过第二句子样本和情感词处理后得到的句子样本组成的样本对。
本申请在上述实施例中,通过正样本和负样本对初始情感分析模型的训练,采用对比学习的方式让模型学会从文本整体层面对文本的情感进行分析。
在一些实施例中,在利用正样本和负样本集合对初始情感分析模型进行训练之前,还包括:
构建负例空队列;
将句子数据中的句子添加至负例空队列中,得到负例队列;
将负例队列中与第二句子样本相邻的预设数量的句子加入负样本集合中,得到第二负样本集合;
利用正样本和负样本集合对初始情感分析模型进行训练,得到情感分析模块,包括:
利用正样本和第二负样本集合对初始情感分析模型进行训练,得到情感分析模块。
本申请在上述实施例中,将负例队列中的样本作为负样本,在控制负样本数量的同时可以达到对初始情感分析模型进行无监督模式的训练,使模型可以学会从文本整体层面分析文本的情感。
在一些实施例中,在替换句子样本的情感词和/或非情感词,得到替换后的句子样本之前,还包括:
初始化基础预训练语言模型参数;
对基础预训练语言模型中嵌入层的词向量根据情感类型进行聚类,得到多个向量集合;
在通过替换后的句子样本对基础预训练语言模型进行训练,得到初始情感分析模型之后,还包括:
对句子样本对应的词向量所在的向量集合进行更新,得到更新后的向量集合。
本申请在上述实施例中,聚类得到多个集合,每当训练初始情感分析模型时,都可以更新对应集合中词向量的位置,可以达到向量合理排列的同时在下一次使用该集合时得到情感分析结果更准确。
在一些实施例中,通过替换后的句子样本对基础预训练语言模型进行训练,得到初始情感分析模型,包括:
将替换后的句子样本输入基础预训练语言模型,得到多个替换词概率值,其中,多个替换词概率值表示多个词被替换的概率;
通过多个替换词概率值和多个真实概率,计算基础预训练语言模型的损失值;
调整模型的参数,直到损失值满足预设值为止,得到初始情感分析模型。
本申请在上述实施例中,通过已经替换词语的句子输入模型让模型判断情感词被替换的概率,进而可以和真实的结果计算模型的损失,通过调整模型的参数,使模型能够准确的判断出文本中情感词是否被替换。
在一些实施例中,利用正样本对初始情感分析模型进行训练,得到情感分析模型,包括:
利用正样本和负例队列中的负样本,计算初始情感分析模型的损失值;
将基础预训练语言模型的损失值和初始情感分析模型的损失值加权求和,得到最终损失;
通过最终损失调整初始情感分析模型的参数,得到情感分析模型。
本申请在上述实施例中,通过对比学习得到情感分析模型的损失和有监督学习得到的初始情感分析模型的损失的加权求和,最终根据最终损失调整模型的参数,可以让模型能够全方面的考虑文本情感,通过最终的情感分析模型使文本情感分析更准确。
在一些实施例中,情感词处理,包括:
近义词替换、删除情感词和复制情感词中的至少一个。
本申请在上述实施例中,通过对情感词进行上述的处理,可以使文本增强情感词,在输入模型时,可以使模型更能注意情感词,起到情感词增强的效果。
在一些实施例中,在通过对比学习的方式,利用正样本对初始情感分析模型进行训练,得到情感分析模型之后,还包括:
对第二句子样本对应的词向量所在的向量集合进行更新,得到更新后的第二向量集合。
本申请在上述实施例中,在对比学习得到情感分析模型之后,可以再次对向量集合进行更新,可以在下次进行情感分析模型训练时向量情感表示更准确。
第二方面,本申请实施例提供了一种训练情感分析模型的装置,包括:
替换模块,用于替换句子样本的情感词和/或非情感词,得到替换后的句子样本;
第一训练模块,用于通过替换后的句子样本对基础预训练语言模型进行训练,得到初始情感分析模型;
处理模块,用于对第二句子样本的词进行情感词处理,得到正样本;
第二训练模块,用于通过对比学习的方式,利用正样本对初始情感分析模型进行训练,得到情感分析模型。
可选的,第二训练模块具体用于:
将正样本所在的一批句子数据中除第二句子样本之外的其它句子作为负样本,得到负样本集合;
利用正样本和负样本集合对初始情感分析模型进行训练,得到情感分析模型,其中,正样本是通过第二句子样本和情感词处理后得到的句子样本组成的样本对。
可选的,所述装置还包括:
构建模块,用于所述第二训练模块在利用正样本和负样本集合对初始情感分析模型进行训练之前,构建负例空队列;
将句子数据中的句子添加至负例空队列中,得到负例队列;
将负例队列中与第二句子样本相邻的预设数量的句子加入负样本集合中,得到第二负样本集合;
所述第二训练模块具体用于:
利用正样本和第二负样本集合对初始情感分析模型进行训练,得到情感分析模块。
可选的,所述装置还包括:
聚类模块,用于所述替换模块在替换句子样本的情感词和/或非情感词,得到替换后的句子样本之前,初始化基础预训练语言模型参数;
对基础预训练语言模型中嵌入层的词向量根据情感类型进行聚类,得到多个向量集合;
所述装置还包括:
更新模块,用于所述第一训练模块在通过替换后的句子样本对基础预训练语言模型进行训练,得到初始情感分析模型之后,对句子样本对应的词向量所在的向量集合进行更新,得到更新后的向量集合。
可选的,第一训练模块具体用于:
将替换后的句子样本输入基础预训练语言模型,得到多个替换词概率值,其中,多个替换词概率值表示多个词被替换的概率;
通过多个替换词概率值和多个真实概率,计算基础预训练语言模型的损失值;
调整模型的参数,直到损失值满足预设值为止,得到初始情感分析模型。
可选的,第二训练模块具体用于:
利用正样本和负例队列中的负样本,计算初始情感分析模型的损失值;
将基础预训练语言模型的损失值和初始情感分析模型的损失值加权求和,得到最终损失;
通过最终损失调整初始情感分析模型的参数,得到情感分析模型。
可选的,情感词处理,包括:
近义词替换、删除情感词和复制情感词中的至少一个。
可选的,所述装置还包括:
第二更新模块,用于所述第二训练模块在通过对比学习的方式,利用正样本对初始情感分析模型进行训练,得到情感分析模型之后,对第二句子样本对应的词向量所在的向量集合进行更新,得到更新后的第二向量集合。
第三方面,本申请实施例提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上述第一方面提供的所述方法中的步骤。
第四方面,本申请实施例提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种训练情感分析模型的方法的流程图;
图2为本申请实施例提供的一种分析句子情感的方法的流程图;
图3为本申请实施例提供的一种训练情感分析模型的装置的示意框图;
图4为本申请实施例提供的一种训练情感分析模型的装置的结构示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和显示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
首先对本申请实施例中涉及的部分用语进行说明,以便于本领域技术人员理解。
AI:人工智能(Artificial Intelligence),是计算机科学的一个分支,研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
NLP:自然语言处理(Natural Language Processing),自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
BERT:Bidirectional Enoceder Representations from Transformers一种语言表示模型。
MLM:(Mask language model)一种掩码语言模型。
SentiWoRD-CL:(Sentiment Word Replacement Detection followed byContrastive Learning for Sentiment Analysis)情感分析预训练方法,将情感词替换检测任务和对比学习任务用于其中,提高模型对情感知识的捕捉能力,能在下游的情感分析任务取得较好效果。
SentiBERT:(Pre-training Language Model Combining SentimentInformation)一种结合情感的预训练语言模型。
ELECTRA:(Efficiently Learning an Encoder that Classifies TokenReplacements Accurately.)一种预训练模型。
对比学习(Contrastive Learning,CL),广泛研究应用于文本句向量表示上,其思想为拉近语义相近文本句向量间的距离,同时推远语义不相近文本句向量间的距离,以此学习到更好的文本句向量表示,提高模型提取整体情感表示的能力。
本申请应用于模型预训练的场景,具体场景为通过对基础的模型进行训练,让模型学会从文本整体和细节考虑文本的情感。
目前,随着AI特别是NLP技术的迅猛发展,自然语言处理技术有了更多的落地应用场景。情感分析在自然语言处理(NLP)中起着重要作用,为广泛的重要商业应用提供了动力。一些情感领域的预训练模型采用的是SentiBERT结构,往往都是在词级别构建情感相关的预训练任务,通过基础的掩码语言模型任务中引入情感词,使模型学会从文本中词语的含义理解文本的情感。上述基于词的情感分析存在很大的局限性,在文本的情感分析中只能捕捉文本的部分情感含义,并不能准确的对文本进行情感分析,通过在BERT的MLM任务中引入情感词,但该策略引入了不利于模型推理的掩码标记,且忽略了对句子层面的任务设计,影响模型对于文本的整体情感信息的捕捉,从而限制模型效果。
为此本申请构造了一种名为SentiWoRD-CL的情感分析预训练方法,通过替换句子样本的情感词和/或非情感词,得到替换后的句子样本;通过替换后的句子样本对基础预训练语言模型进行训练,得到初始情感分析模型;对第二句子样本的词进行情感词处理,得到正样本;通过对比学习的方式,利用正样本对初始情感分析模型进行训练,得到情感分析模型。通过情感词替换的方式训练模型,可以让模型学会注意情感词来分析文本的情感,通过对比学习的方式可以让模型学会从文本整体分析文本情感。通过情感词替换的方式训练模型,可以让模型学会注意情感词来分析文本的情感,通过对比学习的方式可以让模型学会从文本整体分析文本情感。通过该方法得到的情感分析模型可以达到准确的对文本的情感进行分析的效果。
本申请实施例中,执行主体可以为训练情感分析模型系统中的训练情感分析模型设备,实际应用中,训练情感分析模型设备可以为终端设备和服务器等电子设备,在此不做限制。
下面结合图1对本申请实施例的训练情感分析模型的方法进行详细描述。
请参看图1,图1为本申请实施例提供的一种训练情感分析模型的方法的流程图,如图1所示的训练情感分析模型的方法包括:
步骤110:替换句子样本的情感词和/或非情感词,得到替换后的句子样本。
其中,情感词可以是一些表示情感的字词,例如,开心、难过和生气等。非情感词可以是一些不能表示情感的字词,例如,吃饭、小狗和打架等。每条句子样本可以标注其中的情感词,可以通过SentiWordNet(情感分类工具)进行情感词的标记。替换句子样本的情感词和/或非情感词时,同时生成替换词对应的标签,例如:在原情感词所属的词集合中,随机选择一个词来替换原情感词;整个句子的所有的词被替换的比例为15%,优先替换情感词,即如果句子中的情感词的比例大于等于15%,则随机选择情感词进行替换操作,替换比例为整句的15%,如果情感词的比例小于15%,则所有情感词全部被替换,另随机选择其他词进行替换操作,以保证被替换的词的比例为15%。对于被替换过的句子文本的标记,生成情感词替换检测任务需要学习的标签,生成方式为,初始化与句子文本等长的全为0的标签列表,遍历句子文本的每个词,如果某个词被替换过,则标签列表对应位置为1。例如,对于一条句子文本:X=[CLS],w1,w2,...,wi,...,wt,[SEP],初始标签为Y=[0,0,...,0,...,0],其中的wi将被替换,wi∈Ja,则在Ja中随机选择一个词来替换wt,则被替换过的句子文本为/>相应地,X*对应的标签Y=[0,0,...,1,...,0]。其中的[CLS]和[SEP]分别为句子的起始标记和结束标记。
在本申请的一些实施例中,在替换句子样本的情感词和/或非情感词,得到替换后的句子样本之前,图1所示的方法还包括:初始化基础预训练语言模型参数;对基础预训练语言模型中嵌入层的词向量根据情感类型进行聚类,得到多个向量集合。
在通过替换后的句子样本对基础预训练语言模型进行训练,得到初始情感分析模型之后,图1所示的方法还包括:对句子样本对应的词向量所在的向量集合进行更新,得到更新后的向量集合。
本申请在上述过程中,聚类得到多个集合,每当训练初始情感分析模型时,都可以更新对应集合中词向量的位置,可以达到向量合理排列的同时在下一次使用该集合时得到情感分析结果更准确。
其中,基础预训练语言模型可以采用ELECTRA模型参数来初始化模型的参数。嵌入层的词向量可以是一些表示情感的词转换的向量。多个向量集合中每一集合中的词向量所表达的感情属于同一类,例如,开心和高兴两个词对应的词向量属于同一集合。对句子样本对应的词向量所在的向量集合进行更新是对句子样本中情感词的向量所在的集合中的全部向量进行重新排序。聚类方法例如,将模型的词嵌入层也即词向量取出,进行K均值聚类,类别个数为N(超参数),则得到N个簇J1,J2,...,JN及N个簇的中心点c1,c2,...,cN,也是N个向量集合。词向量更新时,使得同一集合中的词的词义会变得越来越相近,替换词和被替换词区别变得细微,从而逐渐加大模型学习的难度。更新方式为,在经过U(超参数)个句子数据集合的训练后,取当前模型的词嵌入层作为新词向量,对新词向量根据原中心点C1,C2,...,CN按就近原则重新分配簇,并丢弃原词向量及聚类信息。
步骤120:通过替换后的句子样本对基础预训练语言模型进行训练,得到初始情感分析模型。
其中,初始情感分析模型已经学会了从字词等细节中捕捉整个句子文本的情感信息。
在本申请的一些实施例中,通过替换后的句子样本对基础预训练语言模型进行训练,得到初始情感分析模型,包括:将替换后的句子样本输入基础预训练语言模型,得到多个替换词概率值,其中,多个替换词概率值表示多个词被替换的概率;通过多个替换词概率值和多个真实概率,计算基础预训练语言模型的损失值;调整模型的参数,直到损失值满足预设值为止,得到初始情感分析模型。
本申请在上述过程中,通过已经替换词语的句子输入模型让模型判断情感词被替换的概率,进而可以和真实的结果计算模型的损失,通过调整模型的参数,使模型能够准确的判断出文本中情感词是否被替换。
其中,替换词概率值用于表示句子样本中词语被替换的概率,通过和已知的概率可以判断模型的输出是否准确,进而可以调整模型的参数,使模型输出更准确。通过多个替换词概率值和多个真实概率,计算基础预训练语言模型的损失值是通过如下公式得到的:
其中,T为句子样本x的长度,yt和ot分别为句子样本x的第t个词的真实标签和模型预测的概率。其中Xt表示句子样本x所在的样本数据集合中的第i个句子文本,L1表示文本集合的总损失,表示文本集合中句子x的损失。
步骤130:对第二句子样本的词进行情感词处理,得到正样本。
其中,正样本包括情感词处理之前和处理之后的两个句子。
在本申请的一些实施例中,情感词处理,包括:近义词替换、删除情感词和复制情感词中的至少一个。例如,对于句子X,wi为选中的情感词,在0到1的均匀分布中随机产生一个数α,则对wi的操作op为:
其中的对情感词操作的具体含义为:
最近词替换(replacement):选择wi所属的簇中距离wi最近的词来将其替换;
重复(repetition):对wi随机重复r次,1≤r≤3;
删除(deletion):将wi在句子X中删除。
句子X经过增强操作得到正样本X+,则与X组成正样本对<X,X+>。
本申请在上述过程中,通过对情感词进行上述的处理,可以使文本整体数据得到扩充,通过情感词处理扩充文本的方式可以让情感分析模型学会从情感词分析整个文本的情感。
步骤140:通过对比学习的方式,利用正样本对初始情感分析模型进行训练,得到情感分析模型。
在本申请的一些实施例中,利用正样本对初始情感分析模型进行训练,得到情感分析模型,包括:将正样本所在的一批句子数据中除第二句子样本之外的其它句子作为负样本,得到负样本集合;利用正样本和负样本集合对初始情感分析模型进行训练,得到情感分析模型,其中,正样本是通过第二句子样本和情感词处理后得到的句子样本组成的样本对。
本申请在上述过程中,通过正样本和负样本对初始情感分析模型的训练,采用对比学习的方式让模型学会从文本整体层面对文本的情感进行分析。
其中,在获取正样本之后从正样本所在的系统或者数据库等,将其它的句子作为负样本。
在本申请的一些实施例中,在利用正样本和负样本集合对初始情感分析模型进行训练之前,图1所示的方法还包括:构建负例空队列;将句子数据中的句子添加至负例空队列中,得到负例队列;将负例队列中与第二句子样本相邻的预设数量的句子加入负样本集合中,得到第二负样本集合。
利用正样本和负样本集合对初始情感分析模型进行训练,得到情感分析模块,包括:利用正样本和第二负样本集合对初始情感分析模型进行训练,得到情感分析模块。
本申请在上述过程中,将负例队列中的样本作为负样本,在控制负样本数量的同时可以达到对初始情感分析模型进行无监督模式的训练,使模型可以学会从文本整体层面分析文本的情感。
其中,负例队列是一种专门存放负例样本的队列。建造空队列方式为,初始化一个大小为M(超参数)的负例空队列Q,将句子数据中样本的句向量表示添加到Q中,随着训练的进行,以此类推,会逐步向Q添加历史样本的句向量,当Q中的向量数达到M后,再进行句向量添加操作时,会同时将处在队列头部的历史句向量出列即丢弃,以维持Q的大小始终为M。那么对于第二句子样本,除了将句子数据内的其他的样本作为负样本外,在Q中选取距离第二句子样本的句向量最近的n个向量作为其额外的负样本,以此增加难负例样本的数量,n为超参数,且0<n<M。
在本申请的一些实施例中,利用正样本对初始情感分析模型进行训练,得到情感分析模型,包括:利用正样本和负例空队列中的负样本,计算初始情感分析模型的损失值;将基础预训练语言模型的损失值和初始情感分析模型的损失值加权求和,得到最终损失;通过最终损失调整初始情感分析模型的参数,得到情感分析模型。
本申请在上述过程中,通过对比学习得到情感分析模型的损失和有监督学习得到的初始情感分析模型的损失的加权求和,最终根据最终损失调整模型的参数,可以让模型能够全方面的考虑文本情感,通过最终的情感分析模型使文本情感分析更准确。
其中,最终损失是通过如下公式的计算得到的:
L=λL1+L2;
其中,hi和分别表示第Xi和/>的句向量表示,/>为句子数据中样本Xj +的句向量表示,Xi表示第二句子样本,Xi +表示情感词处理后得到的句子样本,sim(·,·)表示余弦相似度,τ为温度系数超参数,/>表示取自队列Q的n个向量中的第m个向量,λ为超参数,且0<λ<0.1。T为句子样本x的长度。B表示句子数据中有B个句子样本,/>表示对比学习任务中文本集合中句子Xi的损失,L2表示对比学习任务中文本集合的总损失,L表示最终损失,L1表示情感词替换任务文本集合的总损失。
在本申请的一些实施例中,在通过对比学习的方式,利用正样本对初始情感分析模型进行训练,得到情感分析模型之后,图1所示的方法还包括:对第二句子样本对应的词向量所在的向量集合进行更新,得到更新后的第二向量集合。
本申请在上述过程中,在对比学习得到情感分析模型之后,可以再次对向量集合进行更新,可以在下次进行情感分析模型训练时向量情感表示更准确。
在一些实施例中,由于采用的样本为多个,上述图1所示的方法可以进行多次的实施,每次使用不同的样本进行模型的训练。
在上述图1所示的过程中,本申请通过替换句子样本的情感词和/或非情感词,得到替换后的句子样本;通过替换后的句子样本对基础预训练语言模型进行训练,得到初始情感分析模型;对第二句子样本的词进行情感词处理,得到正样本;通过对比学习的方式,利用正样本对初始情感分析模型进行训练,得到情感分析模型。通过情感词替换的方式训练模型,可以让模型学会注意情感词来分析文本的情感,通过对比学习的方式可以让模型学会从文本整体分析文本情感。通过该方法得到的情感分析模型可以达到准确的对文本的情感进行分析的效果。
前文通过图1-描述了训练情感分析模型的方法,下面结合图2描述通过情感分析模型分析句子情感的方法。
请参看图2,图2为本申请提供的一种分析句子情感的方法的流程图,如图2所示的方法包括:
步骤210:获取待分析句子。
步骤220:将所述待分析句子输入情感分析模型,得到情感分析结果。
其中,情感分析模型是通过对比学习的方式,利用正样本对初始情感分析模型进行训练得到的,正样本是通过对第二句子样本的词进行情感词处理得到的,初始情感分析模型是通过替换后的句子样本对基础预训练语言模型进行训练得到的,替换后的句子样本是通过替换句子样本的情感词和/或非情感词得到的。
此外,图2所示的具体方法和步骤可以参看图1所示的方法,此处不在过多赘述。
前文通过图1-图2描述了训练情感分析模型和情感分析的方法,下面结合图3-图4描述训练情感分析模型的装置。
请参照图3,为本申请实施例中提供的一种训练情感分析模型的装置300的示意框图,该装置300可以是电子设备上的模块、程序段或代码。该装置300与上述图1方法实施例对应,能够执行图1方法实施例涉及的各个步骤,该装置300具体的功能可以参见下文中的描述,为避免重复,此处适当省略详细描述。
可选的,所述装置300包括:
替换模块310,用于替换句子样本的情感词和/或非情感词,得到替换后的句子样本;
第一训练模块320,用于通过替换后的句子样本对基础预训练语言模型进行训练,得到初始情感分析模型;
处理模块330,用于对第二句子样本的词进行情感词处理,得到正样本;
第二训练模块340,用于通过对比学习的方式,利用正样本对初始情感分析模型进行训练,得到情感分析模型。
可选的,第二训练模块具体用于:
将正样本所在的一批句子数据中除第二句子样本之外的其它句子作为负样本,得到负样本集合;利用正样本和负样本集合对初始情感分析模型进行训练,得到情感分析模型,其中,正样本是通过第二句子样本和情感词处理后得到的句子样本组成的样本对。
可选的,所述装置还包括:
构建模块,用于所述第二训练模块在利用正样本和负样本集合对初始情感分析模型进行训练之前,构建负例空队列;将句子数据中的句子添加至负例空队列中,得到负例队列;将负例队列中与第二句子样本相邻的预设数量的句子加入负样本集合中,得到第二负样本集合;
所述第二训练模块具体用于:
利用正样本和第二负样本集合对初始情感分析模型进行训练,得到情感分析模块。
可选的,所述装置还包括:
聚类模块,用于所述替换模块在替换句子样本的情感词和/或非情感词,得到替换后的句子样本之前,初始化基础预训练语言模型参数;对基础预训练语言模型中嵌入层的词向量根据情感类型进行聚类,得到多个向量集合;
所述装置还包括:
更新模块,用于所述第一训练模块在通过替换后的句子样本对基础预训练语言模型进行训练,得到初始情感分析模型之后,对句子样本对应的词向量所在的向量集合进行更新,得到更新后的向量集合。
可选的,第一训练模块具体用于:
将替换后的句子样本输入基础预训练语言模型,得到多个替换词概率值,其中,多个替换词概率值表示多个词被替换的概率;通过多个替换词概率值和多个真实概率,计算基础预训练语言模型的损失值;调整模型的参数,直到损失值满足预设值为止,得到初始情感分析模型。
可选的,第二训练模块具体用于:
利用正样本和负例队列中的负样本,计算初始情感分析模型的损失值;将基础预训练语言模型的损失值和初始情感分析模型的损失值加权求和,得到最终损失;通过最终损失调整初始情感分析模型的参数,得到情感分析模型。
可选的,情感词处理,包括:
近义词替换、删除情感词和复制情感词中的至少一个。
可选的,所述装置还包括:
第二更新模块,用于所述第二训练模块在通过对比学习的方式,利用正样本对初始情感分析模型进行训练,得到情感分析模型之后,对第二句子样本对应的词向量所在的向量集合进行更新,得到更新后的第二向量集合。
请参照图4为本申请实施例中提供的一种训练情感分析模型的装置的结构示意框图,该装置可以包括存储器410和处理器420。可选的,该装置还可以包括:通信接口430和通信总线440。该装置与上述图1方法实施例对应,能够执行图1方法实施例涉及的各个步骤,该装置具体的功能可以参见下文中的描述。
具体的,存储器410,用于存储计算机可读指令。
处理器420,用于处理存储器存储的可读指令,能够执行图1方法中的各个步骤。
通信接口430,用于与其他节点设备进行信令或数据的通信。例如:用于与服务器或者终端的通信,或者与其它设备节点进行通信,本申请实施例并不限于此。
通信总线440,用于实现上述组件直接的连接通信。
其中,本申请实施例中设备的通信接口430用于与其他节点设备进行信令或数据的通信。存储器410可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器410可选的还可以是至少一个位于远离前述处理器的存储装置。存储器410中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器420执行时,电子设备执行上述图1所示方法过程。处理器420可以用于装置300上,并且用于执行本申请中的功能。示例性地,上述的处理器420可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,本申请实施例并不局限于此。
本申请实施例还提供一种可读存储介质,所述计算机程序被处理器执行时,执行如图1所示方法实施例中电子设备所执行的方法过程。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
综上所述,本申请实施例提供一种情感分析模型的预训练方法、装置和电子设备,该方法包括,替换句子样本的情感词和/或非情感词,得到替换后的句子样本;通过替换后的句子样本对基础预训练语言模型进行训练,得到初始情感分析模型;对第二句子样本的词进行情感词处理,得到正样本;通过对比学习的方式,利用正样本对初始情感分析模型进行训练,得到情感分析模型。通过该方法得到的情感分析模型可以达到准确的对文本的情感进行分析的效果。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (10)
1.一种情感分析模型的预训练方法,其特征在于,包括:
替换句子样本的情感词和/或非情感词,得到替换后的句子样本;
通过所述替换后的句子样本对基础预训练语言模型进行训练,得到初始情感分析模型;
对第二句子样本的词进行情感词处理,得到正样本;
通过对比学习的方式,利用所述正样本对所述初始情感分析模型进行训练,得到情感分析模型。
2.根据权利要求1所述的方法,其特征在于,所述利用所述正样本对所述初始情感分析模型进行训练,得到情感分析模型,包括:
将所述正样本所在的一批句子数据中除所述第二句子样本之外的其它句子作为负样本,得到负样本集合;
利用所述正样本和所述负样本集合对所述初始情感分析模型进行训练,得到所述情感分析模型,其中,所述正样本是通过所述第二句子样本和情感词处理后得到的句子样本组成的样本对。
3.根据权利要求2所述的方法,其特征在于,在所述利用所述正样本和所述负样本集合对所述初始情感分析模型进行训练之前,所述方法还包括:
构建负例空队列;
将所述句子数据中的句子添加至所述负例空队列中,得到负例队列;
将所述负例队列中与所述第二句子样本相邻的预设数量的句子加入所述负样本集合中,得到第二负样本集合;
所述利用所述正样本和所述负样本集合对所述初始情感分析模型进行训练,得到情感分析模块,包括:
利用所述正样本和所述第二负样本集合对所述初始情感分析模型进行训练,得到所述情感分析模块。
4.根据权利要求1-3任一项所述的方法,其特征在于,在所述替换句子样本的情感词和/或非情感词,得到替换后的句子样本之前,所述方法还包括:
初始化基础预训练语言模型参数;
对所述基础预训练语言模型中嵌入层的词向量根据情感类型进行聚类,得到多个向量集合;
在所述通过所述替换后的句子样本对基础预训练语言模型进行训练,得到初始情感分析模型之后,所述方法还包括:
对所述句子样本对应的词向量所在的向量集合进行更新,得到更新后的向量集合。
5.根据权利要求1-3任一项所述的方法,其特征在于,所述通过所述替换后的句子样本对基础预训练语言模型进行训练,得到初始情感分析模型,包括:
将所述替换后的句子样本输入所述基础预训练语言模型,得到多个替换词概率值,其中,所述多个替换词概率值表示多个词被替换的概率;
通过所述多个替换词概率值和多个真实概率,计算所述基础预训练语言模型的损失值;
调整模型的参数,直到所述损失值满足预设值为止,得到所述初始情感分析模型。
6.根据权利要求5所述的方法,其特征在于,所述利用所述正样本对所述初始情感分析模型进行训练,得到情感分析模型,包括:
利用所述正样本和负例队列中的负样本,计算所述初始情感分析模型的损失值;
将所述基础预训练语言模型的损失值和所述初始情感分析模型的损失值加权求和,得到最终损失;
通过最终损失调整所述初始情感分析模型的参数,得到所述情感分析模型。
7.根据权利要求1-3任一项所述的方法,其特征在于,所述情感词处理,包括:
近义词替换、删除情感词和复制情感词中的至少一个。
8.根据权利要求1-3任一项所述的方法,其特征在于,在所述通过对比学习的方式,利用所述正样本对所述初始情感分析模型进行训练,得到情感分析模型之后,所述方法还包括:
对所述第二句子样本对应的词向量所在的向量集合进行更新,得到更新后的第二向量集合。
9.一种情感分析模型的预训练装置,其特征在于,包括:
替换模块,用于替换句子样本的情感词和/或非情感词,得到替换后的句子样本;
第一训练模块,用于通过所述替换后的句子样本对基础预训练语言模型进行训练,得到初始情感分析模型;
处理模块,用于对第二句子样本的词进行情感词处理,得到正样本;
第二训练模块,用于通过对比学习的方式,利用所述正样本对所述初始情感分析模型进行训练,得到情感分析模型。
10.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如权利要求1-8中任一项所述方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310212870.4A CN116432660A (zh) | 2023-02-27 | 2023-02-27 | 一种情感分析模型的预训练方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310212870.4A CN116432660A (zh) | 2023-02-27 | 2023-02-27 | 一种情感分析模型的预训练方法、装置和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116432660A true CN116432660A (zh) | 2023-07-14 |
Family
ID=87084514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310212870.4A Pending CN116432660A (zh) | 2023-02-27 | 2023-02-27 | 一种情感分析模型的预训练方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116432660A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116595975A (zh) * | 2023-07-17 | 2023-08-15 | 四川大学 | 一种基于句信息进行词信息增强的方面级情感分析方法 |
-
2023
- 2023-02-27 CN CN202310212870.4A patent/CN116432660A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116595975A (zh) * | 2023-07-17 | 2023-08-15 | 四川大学 | 一种基于句信息进行词信息增强的方面级情感分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xie et al. | Region graph embedding network for zero-shot learning | |
Townsend et al. | Extracting relational explanations from deep neural networks: A survey from a neural-symbolic perspective | |
CN112966074B (zh) | 一种情感分析方法、装置、电子设备以及存储介质 | |
CN111950269A (zh) | 文本语句处理方法、装置、计算机设备和存储介质 | |
CN110765775A (zh) | 一种融合语义和标签差异的命名实体识别领域自适应的方法 | |
CN110083836B (zh) | 一种文本预测结果的关键证据抽取方法 | |
CN112163092B (zh) | 实体及关系抽取方法及系统、装置、介质 | |
CN112749274B (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN113220886A (zh) | 文本分类方法、文本分类模型训练方法及相关设备 | |
CN113254675B (zh) | 基于自适应少样本关系抽取的知识图谱构建方法 | |
CN113312912B (zh) | 一种用于交通基础设施检测文本的机器阅读理解方法 | |
CN112667782A (zh) | 一种文本分类方法、装置、设备及存储介质 | |
CN112559734B (zh) | 简报生成方法、装置、电子设备及计算机可读存储介质 | |
CN111400494A (zh) | 一种基于GCN-Attention的情感分析方法 | |
Maniparambil et al. | Enhancing clip with gpt-4: Harnessing visual descriptions as prompts | |
Yang et al. | Generative counterfactuals for neural networks via attribute-informed perturbation | |
CN116432660A (zh) | 一种情感分析模型的预训练方法、装置和电子设备 | |
CN111145914A (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN117370736A (zh) | 一种细粒度情感识别方法、电子设备及存储介质 | |
Jabreel et al. | Target-dependent Sentiment Analysis of Tweets using a Bi-directional Gated Recurrent Unit. | |
CN117390131A (zh) | 一种用于多领域的文本情感分类方法 | |
CN115759043A (zh) | 一种文档级敏感信息检测模型训练及预测方法 | |
CN116227486A (zh) | 一种基于检索和对比学习的情感分析方法 | |
CN113297385B (zh) | 基于改进GraphRNN的多标签文本分类系统及分类方法 | |
CN115129807A (zh) | 基于自注意的社交媒体主题评论的细粒度分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |