CN117217218B - 科技风险事件相关舆情的情感词典构建方法及装置 - Google Patents

科技风险事件相关舆情的情感词典构建方法及装置 Download PDF

Info

Publication number
CN117217218B
CN117217218B CN202311477949.6A CN202311477949A CN117217218B CN 117217218 B CN117217218 B CN 117217218B CN 202311477949 A CN202311477949 A CN 202311477949A CN 117217218 B CN117217218 B CN 117217218B
Authority
CN
China
Prior art keywords
emotion
word
words
category
comment text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311477949.6A
Other languages
English (en)
Other versions
CN117217218A (zh
Inventor
王力
李琳娜
王莉军
张运良
悦林东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute Of Scientific And Technical Information Of China
Original Assignee
Institute Of Scientific And Technical Information Of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute Of Scientific And Technical Information Of China filed Critical Institute Of Scientific And Technical Information Of China
Priority to CN202311477949.6A priority Critical patent/CN117217218B/zh
Publication of CN117217218A publication Critical patent/CN117217218A/zh
Application granted granted Critical
Publication of CN117217218B publication Critical patent/CN117217218B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本申请实施例提供了一种科技风险事件相关舆情的情感词典构建方法、装置、电子设备及存储介质,涉及人工智能领域。该方法包括:获取目标事件的多个评论文本,以及每个评论文本中的情感词;将各评论文本输入到预先训练的情感分类模型,获得情感分类模型输出的各评论文本的情感类别;对于每个情感词,根据出现情感词的评论文本的情感类别,确定情感词的情感类别;将情感词补充到通用情感词典中的相应情感类别的词集。本申请实施例构建了比现有通用情感词典适用领域更加广泛的通用情感词典,能够满足更多领域的情感分析需求。

Description

科技风险事件相关舆情的情感词典构建方法及装置
技术领域
本申请涉及人工智能技术领域,具体而言,本申请涉及一种科技风险事件相关舆情的情感词典构建方法、装置、电子设备及计算机可读存储介质。
背景技术
科技在飞速发展的同时,也伴随着前沿科技风险事件的发生。一些涉及科技伦理因素的前沿科技风险事件的发生,反应出科学技术的不断探索和应用已经触及到人类对自身本质和权利的底线,进而引发了广泛的讨论和舆论。前沿科技风险事件网络舆情与一般社会突发事件网络舆情相比,具有相似之处,但由于科技本身的专业性以及公众对其产生的认知差异,这类事件的舆情引导方案需要在一般社会突发事件网络舆情引导方案的基础上,更加重视前沿科技舆情的演化特点和特征而制定。
而在舆情演化分析的过程中,对公众态度进行挖掘是至关重要的一步,主要涉及到的就是情感分析技术。情感分析作为计算机数据挖掘中自然语言处理的一个重要分支,又称为观点分析、观点挖掘,作为情感分析的一个重要工具,情感词典目前在网络文本情感分析中得到较好应用。
当前在解决工程问题时倾向于使用通用情感词典(如大连理工大学情感词典本体库、Hownet等),但这类词典未能有效考虑网络用语、emoji表情以及科技领域专业术语,因此虽然可以完成情感分类任务,但精度不高,不适用于对前沿科技舆情领域中进行情感分析。
发明内容
本申请实施例提供了一种科技风险事件相关舆情的情感词典构建方法、装置、电子设备和计算机可读存储介质,可以解决现有技术的上述问题。技术方案如下:
根据本申请实施例的第一个方面,提供了一种科技风险事件相关舆情的情感词典构建方法,该方法包括:
获取目标事件的多个评论文本,以及每个评论文本中的情感词;
将各评论文本输入到预先训练的情感分类模型,获得所述情感分类模型输出的各评论文本的情感类别;
对于每个情感词,根据出现所述情感词的评论文本的情感类别,确定所述情感词的情感类别;
将所述情感词补充到通用情感词典中的相应情感类别的词集。
作为一种可选实施例,所述情感分类模型的训练方法包括:
确定大语言模型,所述大语言模型是基于通用领域的样本文本训练而成的;
获得第一数据集,所述第一数据集包括多个第一训练样本和每个第一训练样本的第一训练标签,所述第一训练样本为所述目标事件所属目标领域的词汇,第一训练标签为每个词汇对应的文字解释;
基于第一数据集和预设的第一输出指令对所述大语言模型进行第一次微调,直至所述大语言模型具备所述词汇的理解能力,所述第一输出指令用于指示所述大语言模型输出第一训练样本对应的第一训练标签;
获得第二数据集,所述第二数据集包括多个第二训练样本和每个第二训练样本的训练标签,所述第二训练样本为所述目标事件的样本评论文本,第二训练标签为每个样本评论文本的情感类别;
基于第二数据集预设的第二输出指令对所述大语言模型进行第二次微调,直至大语言模型具备对输入的评论文本输出所述评论文本的情感类别的能力,所述第二输出指令用于指示所述大语言模型输出第二训练样本对应的第二训练标签,将所述大语言模型作为所述情感分类模型。
作为一种可选实施例,所述获取目标事件的多个评论文本,以及每个评论文本中的情感词,包括:
通过网络爬虫的方式获取目标事件的多个评论文本;
对每个评论文本进行预处理,获得每个评论文本中的情感词;
其中,所述预处理的方式包括分词和去停留词中的至少一者,所述情感词为文字词语和表情符号中的至少一者。
作为一种可选实施例,所述根据出现所述情感词的评论文本的情感类别,确定所述情感词的情感类别,包括:
确定每一个情感词对每一种情感类别的卡方统计量,所述卡方统计量表示情感词与情感类别间相关程度的大小;
对于每一种情感类别,将所有情感词按照与所述情感类别的卡方统计量由大到小进行排序,获得所述情感类别的情感词排序结果;
对于每一种情感类别,根据出现所述情感词的评论文本的数量,以及所述情感类别中评论文本的总数量,确定所述情感词关于所述情感类别的情感覆盖度;
对于每一种情感类别,按照对应的情感词排序结果,依次对各个情感词的所述情感覆盖度进行求和,直至求和后的数值达到第一预设阈值时停止,将进行求和的各个情感词的情感类别确定为所述情感类别。
作为一种可选实施例,所述将所述情感词补充到通用情感词典中的相应情感类别的词集中,之后还包括:
确定所述通用情感词典中各个情感词的第一向量表示;
对各个情感词的第一向量表示进行降维,获得各个情感词的第二向量表示;
根据各个情感词的第二向量表示,对各个情感词进行聚类,获得多个新词集,所述新词集的数量为情感类别的数量;
对于每个新词集,将所述新词集中占比最高的情感类别,作为所述新词集对应的情感类别。
作为一种可选实施例,所述根据各个情感词的第二向量表示,对各个情感词进行聚类,获得多个新词集,包括执行迭代步骤,所述迭代步骤包括:
对于本轮迭代的每个参考词集,根据所述参考词集中各个情感词的第二向量表示,确定所述参考词集的离散程度;
对于本轮迭代的每个参考词集,若所述参考词集的离散程度符合预设条件,则停止迭代,并将所述参考此集作为新词集;
若所述参考词集的离散程度不符合预设条件,则对所述参考词集中的各个情感词重新分配,获得至少一个下轮迭代的参考词集。
作为一种可选实施例,对所述参考情感词中的各个情感词重新分配,包括:
对于所述参考词集中的每个情感词,根据所述情感词的第二向量表示,获得所述情感词的特征值;
根据所述参考词集中各个情感词的特征值,获得所述参考词集的特征值;
对于所述参考词集中的每个情感词,根据所述情感词的特征值和所述参考词集的特征值,确定所述情感词属于所述参考词集的真值;
对于所述参考词集中的每个情感词,若所述情感词属于所述参考此集的真值不小于第二预设阈值,则将所述情感词保留在所述参考词集中,若所述情感词属于所述参考词集的真值小于第二预设阈值,则确定所述情感词属于其他参考词集的真值,将所述情感词移动至最大真值对应的参考词集。
根据本申请实施例的第二个方面,提供了一种科技风险事件相关舆情的情感词典构建装置,该装置包括:
获取模块,用于获取目标事件的多个评论文本,以及每个评论文本中的情感词;
输入模块,用于将各评论文本输入到预先训练的情感分类模型,获得所述情感分类模型输出的各评论文本的情感类别;
确定模块,用于对于每个情感词,根据出现所述情感词的评论文本的情感类别,确定所述情感词的情感类别;
补充模块,用于将所述情感词补充到通用情感词典中的相应情感类别的词集。
根据本申请实施例的第五个方面,提供了一种电子设备,该电子设备包括存储器、处理器及存储在存储器上的计算机程序,处理器执行计算机程序以实现上述方法的步骤。
根据本申请实施例的第六个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法的步骤。
本申请实施例提供的技术方案带来的有益效果是:
通过获取目标事件的多个评论文本,将多个评论文本输入到情感分类模型中,获得目标事件的多个评论文本的情感类别,通过每个评论文本的情感类别得到关于目标事件中情感词的情感类别,将情感词补充到通用情感词典中的相应情感类别的词集中,使得通用情感词典中的情感词更加丰富,构建出了新的通用情感词典,新的通用情感词典中包括了目标领域情感词的情感类别,相比于原通用情感词典,新的通用情感词典能够适用于特定领域的情感分析问题。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种情感词典构建方法的流程示意图;
图2为本申请实施例提供的一种情感分类模型训练方法的流程示意图;
图3为本申请实施例提供的一种情感类别分析系统的界面示意图;
图4为本申请实施例提供的一种情感词情感类别确定方法的流程示意图;
图5为本申请实施例提供的一种情感词聚类方法的流程示意图;
图6为本申请实施例提供的一种情感词聚类过程中的迭代步骤的流程示意图;
图7为本申请实施例提供的一种对情感词重新分配方法的流程示意图;
图8为本申请实施例提供的一种情感词典构建装置的结构示意图;
图9为本申请实施例提供的一种情感词典构建电子设备的结构示意图。
具体实施方式
下面结合本申请中的附图描述本申请的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本申请实施例的技术方案的示例性描述,对本申请实施例的技术方案不构成限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是,本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解,当我们称一个元件被“连接”或“耦接”到另一元件时,该一个元件可以直接连接或耦接到另一元件,也可以指该一个元件和另一元件通过中间元件建立连接关系。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个,例如“A和/或B”可以实现为“A”,或者实现为“B”,或者实现为“A和B”。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先对本申请涉及的几个名词进行介绍和解释:
情感词典:情感词典是一种包含了各种情感词汇及其情感极性(如正面、负面、中性)的词典。它可以用于情感分析、情感识别和情感计算等自然语言处理任务中。情感词典的构建可以基于不同的语言和文化背景。例如,英文情感词典中包含了各种英文词语及其情感极性,而中文情感词典则包含了中文词语及其情感极性。情感词典在情感分析任务中起着重要的作用。通过将文本中的词语与情感词典进行匹配,可以计算出文本的情感得分,从而判断文本的情感倾向。情感词典还可以用于情感识别任务,即识别文本中的情感表达,并将其分类为积极、消极或中性。
大语言模型(Large Language Model,LLM):是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。
广义线性模型(Generalized Linear Model,GLM):是大语言模型的一种,GLM基于自回归填空的通用预训练框架,通过在一个统一的框架中同时学习双向和单向的注意力机制,模型在预训练阶段同时学习到了上下文表示和自回归生成。在针对下游任务的微调阶段,通过完形填空的形式统一了不同类型的下游任务,从而实现了针对所有自然语言处理任务通用的预训练模型。
中英双语对话模型(Chat Generative Language Model with 6 BillionParameters,ChatGLM-6B):是一个开源的、支持中英双语问答的对话语言模型,并针对中文进行了优化。该模型基于GLM架构,具有62亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。ChatGLM-6B针对中文问答和对话进行了优化,经过约1T标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术。
第二代中英双语对话模型(The second Chat Generative Language Model with6 Billion Parameters,ChatGLM2-6B):在保留了ChatGLM-6B模型的流畅对话和低门槛部署等优点的基础上,进行了改进。首先,ChatGLM2-6B经过全面升级的基座模型在性能上更强大,通过混合目标函数和大规模预训练与对齐训练,性能在各种数据集上都有显著提升。其次,基于Flash Attention技术,上下文长度从2K扩展到32K,并在对话阶段使用8K的上下文长度训练,这为发布了ChatGLM2-6B-32K模型提供了更长的上下文支持。此外,基于Multi-Query Attention技术,ChatGLM2-6B具有更高效的推理速度和更低的显存占用,推理速度提升了42%,对话长度由1K提升到了8K。最后,ChatGLM2-6B的权重对学术研究完全开放,并允许免费商业使用,具有更开放的协议。
单词表示为向量算法(word to vector,word2vec):是一种用于将单词表示为连续向量的算法,旨在通过学习单词在上下文中的分布模式来捕捉单词之间的语义关系。Word2vec算法有两种主要的实现模型:CBOW(Continuous Bag-of-Words)模型和Skip-gram模型。CBOW模型通过给定上下文单词来预测目标单词,而Skip-gram模型则是通过给定目标单词来预测上下文单词。通过训练大量的文本语料库,word2vec可以将每个单词表示为一个向量,使得具有相似语义的单词在向量空间中的距离更近。这种向量表示有助于计算单词之间的相似性、寻找单词的近义词、执行词汇补全等自然语言处理任务。
表情符号表示为向量算法(emoji to vector,emoji2vec):是一种将表情符号表示为向量的算法。它的目标是通过学习表情符号在上下文中的分布模式来捕捉它们之间的语义关系。Emoji2Vec算法的实现方式与word2vec类似,使用CBOW或Skip-gram模型来训练。通过处理大量的文本数据,算法可以将每个表情符号表示为一个向量,使得具有相似语义的表情符号在向量空间中的距离更近。Emoji2vec的应用包括情感分析、文本分类、推荐系统等领域。它为处理和理解表情符号在文本中的含义提供了一种有效的方式,有助于更好地理解和分析包含表情符号的文本数据。
基于t分布的随机临近嵌入(t-Distributed Stochastic Neighbor Embedding,t-SNA):是一种非线性降维算法,用于将高维数据映射到低维空间中,通过保留数据点之间的相似性来构建低维表示。它通过计算高维空间中数据点之间的相似度,然后在低维空间中计算相应的相似度,以确保相似的数据点在低维空间中保持较近的距离。相反,不相似的数据点在低维空间中保持较远的距离。t-SNE使用概率分布中的t分布来表示数据点之间的相似度,首先计算高维空间中数据点之间的相似度,然后使用高斯分布来表示这些相似度,利用t-SNE在低维空间中构建一个类似的概率分布,以确保相似的数据点在低维空间中保持较近的距离。
本申请提供的科技风险事件相关舆情的情感词典构建方法、装置、电子设备、计算机可读存储介质,旨在解决现有技术的形成的通用情感词典在处理特定领域情感分析问题时精度低的问题。本申请实施例通过预先训练一个为目标领域评论文本输出评论文本情感类别的情感分类模型,通过该模型输出的评论文本的情感类比,确定评论文本中情感词的情感类别,将情感词补充到通用情感词典对应类别的词集中,对通用情感词典中的情感词进行了补充。这样,构建出了新的通用情感词典,新的通用情感词典中包括了目标领域情感词的情感类别,相比于原通用情感词典,新的通用情感词典能够适用于特定领域的情感分析问题。
下面通过对几个示例性实施方式的描述,对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是,下述实施方式之间可以相互参考、借鉴或结合,对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等,不再重复描述。
本申请实施例中提供了一种科技风险事件相关舆情的情感词典构建方法,如图1所示,该方法包括:
S101、获取目标事件的多个评论文本,以及每个评论文本中的情感词。
在本申请实施例中,目标事件为目标领域中出现的事件,目标领域可以为前沿科技领域,目标事件可以为前沿科技领域的某网络舆论事件。目标事件的评论文本可以从用户可以发表评论的网络平台获得,网络平台可以是今日头条、微博、抖音、小红书等网络平台的至少一者。可以理解的是,评论文本能够表达评论者关于某件事的态度,因此具有情感倾向,评论文本中的词汇与评论文本的情感倾向密切相关,获取评论文本中的形容词、名词和动词以及与连词、程度副词和定词进行搭配的词,并将这些词记作为情感词。可以理解的是,有一些词汇本身没有情感倾向,但是当这些词汇出现在评论文本时,能够反映评论文本的情感倾向,但这些词汇没有被通用情感所记录,而这些词汇一般是形容词、名词和动词以及与连词、程度副词和定词进行搭配的词汇。
S102、将各评论文本输入到预先训练的情感分类模型,获得情感分类模型输出的各评论文本的情感类别。
将获取的目标事件的每个评论文本作为预先训练的情感分类模型的输入数据,通过情感分类模型判断每个评论文本的情感倾向,输出每个评论文本的情感倾向即情感类别。
情感分类模型是一种用于对输入数据的情感倾向进行分类的模型,本质是一种数据分类模型,通过制作情感分类样本数据,对原始的数据分类模型进行训练,经过训练后的数据分类模型能够对评论文本进行情感类别的分类,因此将训练后的是数据分类模型记为情感分类模型。通过将每个评论文本输入到情感分类模型中获得每个评论文本的情感类别。
作为本申请的另一种实施例,通过情感分类模型获得评论文本的情感类别后,专业人员对于输出错误的评论文本的情感类别进行修正,获得每个评论文本的情感类别。为保证得到的评论文本的情感类别的正确性,在情感分类模型的分类结果的基础上,结合专业人员修正,使得最终的评论文本的情感类别更加准确。
S103、对于每个情感词,根据出现情感词的评论文本的情感类别,确定情感词的情感类别。
在本申请实施例中,根据出现每个情感词的评论文本的情感类别,获得步骤S101获得的每个情感词的情感类别。可以理解的是,情感词对于评论文本的情感类别的判断具有重要的参考意义,比如“我反对这个观点!”,通过情感词“反对”,能够判断出这句话的情感倾向,同样的,根据评论文本的情感类别也能够反映出出现在评论文本中情感词的情感倾向。所以,在本申请实施例中,将评论文本的情感类别作为确定评论文本中情感词的情感类别的依据。
S104、将所述情感词补充到通用情感词典中的相应情感类别的词集。
在本申请实施例中,由于通用情感词典对目标领域的情感分析精度低,因此将步骤S101获得的目标领域的情感词补充到通用情感词典中,具体得,按照步骤S103获得的每个情感词的情感类别,将情感词补充到通用情感词典的相应情感类别的词集中,在通用情感词典中,每一个情感类别的词构成了一个词集。
将某个情感词补充至情感词典时,首先判断通用情感词典中是否存在该情感词,若情感词典中不存在该情感词时,将该情感词补充到通用情感词典中,若通用情感词典中存在该情感词,则不将该情感词补充到通用情感词典中。
通过将新获取的情感词补充到通用情感词典中,扩充了通用情感词典,提高了通用情感词典在目标领域进行情感分析的能力。
在本申请实施例中,情感类别包括正向、负向和中性三种类别,通用情感词典为大连理工大学通用情感词典,大连理工大学通用情感词典中强情感进行分为了七种类别,分别为:“乐”、“好”、“怒”、“哀”、“惧”、“恶”和“惊”,在本申请实施例中,将大连理工大学通用情感词典中的七种情感类别合并为三种,“乐”、“好”定义为正向;“怒”、“哀”、“惧”、“恶”定义为负向;“惊”定义为中性。
在本实施例中,将情感类别设定为三类,即正向、负向和中性,其中正向表示支持、负向表示反对、中性表示中立,有利于获得网络用户对于前沿科技领域的一些舆论事件的态度,比如支持、反对和中立等。
在本申请实施例中,通过情感分类模型对目标事件的评论文本的情感类别进行分类,获得了评论文本的情感类别,通过评论文本的情感类别获得了目标领域中情感词的情感类别,将情感词补充到通用情感词典中,构建出新的通用情感词典,新的通用情感词典包含了目标领域的情感词,因此更加适用于对目标领域的情感分析问题。
作为一种可选实施例,情感分类模型的训练方法包括:
S201、确定大语言模型,大语言模型是基于通用领域的样本文本训练而成的;
S202、获得第一数据集,第一数据集包括多个第一训练样本和每个第一训练样本的第一训练标签,第一训练样本为目标事件所属目标领域的词汇,第一训练标签为每个词汇对应的文字解释;
S203、基于第一数据集和预设的第一输出指令对大语言模型进行第一次微调,直至大语言模型具备词汇的理解能力,所述第一输出指令用于指示所述大语言模型输出第一训练样本对应的第一训练标签;
S204、获得第二数据集,第二数据集包括多个第二训练样本和每个训练样本的第二训练标签,第二训练样本为目标事件的样本评论文本,第二训练标签为每个样本评论文本的情感类别;
S205、基于第二数据集和预设的第二输出指令对大语言模型进行第二次微调,直至大语言模型具备对输入的评论文本输出评论文本的情感类别的能力,所述第二输出指令用于指示所述大语言模型输出第二训练样本对应的第二训练标签,将大语言模型作为情感分类模型。
请参见图2,其示例性地示出了本申请实施例对情感分类模型训练的流程示意图。
在本申请实施例中,大语言模型可以为ChatGLM2-6B模型,ChatGLM2-6B模型是基于通用领域的样本文本进行训练的一种中英对话模型。相比于目前其他中英对话模型,ChatGLM2-6B模型具有更高效的推理速度和更低的显存占用。
在本申请实施例中,对ChatGLM2-6B模型进行微调,可以理解的是,初始的ChatGLM2-6B模型是通过通用领域的样本文本进行训练生成的,因此,ChatGLM2-6B模型会对一些特定领域的词汇没有理解能力或者理解能力较差,为使ChatGLM2-6B模型能够对目标领域的词汇具有较高的理解能力,使用目标领域的词汇以及词汇的文字解释制作数据集,作为对ChatGLM2-6B模型进行微调的样本。
在本申请实施例中,目标领域为前沿科技领域,前沿科技领域的词汇和词汇对应的文字解释可以在《汉语主题词表》中的工程技术卷中获得,词汇为工程技术卷中记录的词汇,比如“分布式处理”,词汇对应的解释为对应的术语词汇的概念属性,词汇的概念属性包括:英文,中图分类,属项,分项,代项,参项和注释。比如分布式处理的概念属性包括:distributed,TN391,信息处理,分布式并行处理、分布式查询处理和开放式分布处理,分布处理和分布式信息处理,分布式编码、分布式演染和云技术,一种信息处理,即“分布式处理”的英文属性为distributed,中图分类属性为TN391,属项属性为信息处理,分项属性为分布式并行处理、分布式查询处理和开放式分布处理,代项属性为分布处理和分布式信息处理,参项属性为分布式编码、分布式演染和云技术,注释属性为有一种信息处理。
因为工程技术卷中并不是所有词汇都包含上述所有属性,为对ChatGLM2-6B模型进行较好的微调,在工程技术卷中抽取具备上述所有概念属性的词汇,作为进行微调训练的词汇,在本申请实施例中,共抽取工程技术卷中的122条具备上述所有概念属性的词汇,将这些词汇作为第一数据集中的训练样本,称为第一训练样本,将这些词汇对应的概念属性作为相应词汇的训练标签,称为第一训练标签。根据第一数据集结合和第一输出指令,将第一训练样本编译为用于第一次微调的第一数据格式,其中,第一输出指令为“输出第一训练样本对应的第一训练标签”等指令性语言。
在第一数据格式中,将第一训练样本作为输入,第一样本对应的第一训练标签作为输出,结合第一输出指令,对ChatGLM2-6B模型进行第一次微调,例如在第一次微调过程中“分布式处理”第一数据格式为:
{"instruction":"你现在是一个词表自动构建工具,请你帮我给出词条的英文、中图分类、注释、关系,其中关系包括属项、参项、代项、分项。输出格式为英文\n中图分类\n关系\n注释","input":"分布式处理","output":"英文:distributed\n中图分类:TN391\n关系:\n属项-信息处理\n分项-分布式并行处理;分布式查询处理;开放式分布处理\n代项-分布处理;分布式信息处理\n参项-分布式编码;分布式演染;云技术\n注释:一种信息处理\n"}。其中“你现在是一个词表自动构建工具,请你帮我给出词条的英文、中图分类、注释、关系,其中关系包括属项、参项、代项、分项。输出格式为英文\n中图分类\n关系\n注释”即为本申请实施例中第一次微调的输出指令,“分布式处理”为输入,“英文:distributed\n中图分类:TN391\n关系:\n属项-信息处理\n分项-分布式并行处理;分布式查询处理;开放式分布处理\n代项-分布处理;分布式信息处理\n参项-分布式编码;分布式演染;云技术\n注释:一种信息处理\n”为输出。
在人工智能领域中,微调指在一个已经预训练好的大模型上继续进行训练,以适应特定的任务或数据集,为使得ChatGLM2-6B模型具有前沿科技领域的词汇理解能力,根据制作的第一数据集对ChatGLM2-6B模型进行微调。
第一次微调后的ChatGLM2-6B模型已经具备了对前沿科技领域的词汇理解能力,但还不具备对输入的评论文本直接输出评论文本情感类别的能力,也就是说,在对ChatGLM2-6B模型进行第一次微调后,如果想要让该模型输出某个评论文本的情感类别,需要指示该模型输出该评论文本的情感类别,即需要输入“请输出该评论文本的情感类别”等类似的评论语句后,才能输出对应评论文本的情感类别。
为使得ChatGLM2-6B模型能够直接输出评论文本的情感类别,通过样本评论文本和样本评论文本的情感类别对ChatGLM2-6B模型进行再次微调。在本申请实施例中,为ChatGLM2-6B模型制作用于微调的第二数据集,第二数据集中的训练样本为前沿科技领域的某网络舆论事件的样本评论文本,称为第二训练样本,对应评论文本的情感类别作为第二训练样本的标签称为第二训练标签。基于第二数据集和第二输出指令将第二训练样本编译为用于第二次微调的第二数据格式,第二输出指令为输出第二训练样本的对应的第二训练标签的指令性语句,如“请输出该评论文本的情感类别”等语句。
在第二数据格式中,将第二训练样本作为输入,第二训练样本对应的第二训练标签为输出。具体的第二数据格式可以为:
{"instruction":"你现在是一个情感分析工具,请你帮我给出下面内客的情感倾向,正面情绪或者负面情绪","input":"有国内中文版了下载后可以免费使用,确实好用","output":"正向"}。其中“你现在是一个情感分析工具,请你帮我给出下面内客的情感倾向,正面情绪或者负面情绪”即为本申请实施例中进行第二次微调的输出指令,“有国内中文版了下载后可以免费试用,确实好用”为输入,“正向”为输出。
某网络舆论事件的样本评论文本可以从用户可以发表评论的网络平台获得,网络平台可以是今日头条、微博、抖音、小红书等网络平台的至少一者。对应样本评论文本的情感类别可以由人工进行标注。
将制作出的第二数据集对微调后的ChatGLM2-6B模型进行第二次微调,通过某网络舆论事件的样本评论文本和对应样本评论文本的情感类别对ChatGLM2-6B模型进行微调,使得ChatGLM2-6B模型能够在不要求输出为情感类别的前期下,判断出输入的评论本文的情感类别,即在不需要输入“输出该评论文本的情感类别”等指令性语句的前提,输出评论文本的情感类别。将两次微调后的ChatGLM2-6B模型作为情感分类模型。同时,如图3所示,其示例性地示出了一种情感类别分析系统的界面示意图,在本申请实施例中还可以将第二次微调后的ChatGLM2-6B模型封装为情感类别分析系统,使得ChatGLM2-6B模型能够对输入的评论文本直接输出情感类别。
在本申请实施例中,通过对大语言模型进行两次微调,两次微调的数据集中的数据都含有输出指令,在本领域中也将该输出指令称为promot,将包含训练样本和训练标签的数据集与输出指令相结合,对大语言模型进行训练,使得大语言模型先后获得目标领域词汇理解的能力和直接输出评论文本情感类别的能力,将两次微调后的大语言模型作为情感分类模型,能够直接对获取的评论文本输出情感类别。在本申请实施例中,采用的大语言模型为ChatGLM2-6B模型,也可以使用其他大语言模型,在本申请中不做限制。
作为一种可选实施例,获取目标事件的多个评论文本,以及每个评论文本中的情感词,包括:
通过网络爬虫的方式获取目标事件的多个评论文本;
对每个评论文本进行预处理,获得每个评论文本中的情感词;
其中,预处理的方式包括分词和去停留词中的至少一者,情感词为文字词语和表情符号中的至少一者。
在本申请实施例中,通过网络爬虫的方式获得目标事件的评论文本。网络爬虫,也称为网络蜘蛛、网络机器人,是一种自动化程序,用于在互联网上自动地浏览、收集和提取信息。
在本申请实施例中,为获得尽量多的目标事件的评论文本,通过网络爬虫的方式,在网络平台上获取某段时间内关于目标事件的评论文本。如在“今日头条”网络平台中获取的2018年11月1日至2022年5月1日的关于某网络舆论事件的一万九千多条评论文本。
可以理解的是,获取的目标事件的评论文本中包含关于目标领域的具有情感倾向的词汇即情感词,通过对评论文本进行预处理获得这些情感词。在本申请实施例中,对评论文本进行分词和去停留词后结合词汇标注工具,获得情感词。
分词是将一个句子或文本划分成一个个独立的词语的过程是自然语言处理中的重要步骤,可以帮助计算机理解和处理文本。去停用词是在分词的基础上,将文本中的停用词去除的过程,停用词是指在自然语言中频繁出现但对文本含义没有太大贡献的词语,例如“的”、“是”、“在”等。词汇标注工具可以是jiebe工具,jiebe工具支持对中文文本进行词性标注,将每个词语标注为其所属的词性,如名词、动词、形容词等。此外还可以使用LTP工具和hanlp工具进行词汇标注,在本申请中不做限制。
在本申请实施例中,通过对评论文本进行分词和去停留词,结合词汇标注工具获得评论文本中的词汇以及对应词汇的词性。
在本申请实施例中,设定情感词为在评论文本中以形容词、名词和动词的形式出现,并且与连词、程度副词和否定词进行搭配,还可以包括临近满足上述条件的文字词语的表情符号。
文字词语可以包括普通文字词语、表情文字词语和网络文字词语的至少一者。普通文字词语可以是一些名词和动词,比如“扩散”、“扩散”、“恶性”和“良性”等;表情文字词语为用户评论时能够使用的表达情感倾向的符号,比如“[赞]”、“[微笑]”、“[哭泣]”和“[愤怒]”等表情符号,且这些表情文字的特点是在评论中显示为对应图案,数据读取时的格式为上述中括号加相应表情描述的文字格式;网络文字词语是网络流行语;表情符号为用户评论时使用输入法中的表达情感倾向的表情,在本领域中称为emoji,表情符号的特点是在评论中显示为表情图案,在数据读取时为Unicode编码格式。
在本申请实施例中通过网络爬虫的方式,获取了足够数量的评论文本,通过对这些评论文本进行分词和去停留词后进行人工选择,能够获取目标领域的情感词,在获取情感词时,获取了普通文字词语、表请文字词语、网络文本词语以及表情符号,将这些情感词扩充至通用情感词典,有利于综合分析网络用户评论的情感倾向,提高对目标领域的情感分析能力。
作为一种可选实施例,根据出现情感词的评论文本的情感类别,确定情感词的情感类别,包括:
S401、确定每一个情感词对每一种情感类别的卡方统计量,卡方统计量表示情感词与情感类别间相关程度的大小;
S402、对于每一种情感类别,将所有情感词按照与情感类别的卡方统计量由大到小进行排序,获得情感类别的情感词排序结果;
S403、对于每一种情感类别,根据出现情感词的评论文本的数量,以及情感类别中评论文本的总数量,确定情感词关于情感类别的情感覆盖度;
S404、对于每一种情感类别,按照对应的情感词排序结果,依次对各个情感词的情感覆盖度进行求和,直至求和后的数值达到第一预设阈值时停止,将进行求和的各个情感词的情感类别确定为情感类别。
请参见图4,其示例性地示出了本申请实施例确定情感词情感类别的流程示意图。
在本申请实施例中,通过每一个情感词对每一种情感类别的卡方统计量,获得每个情感词关于每种情感类别相关程度。若一个情感词关于一种情感类别的卡方统计量越大,代表这个情感词与这种情感类别的相关性越强,即这个情感词越可能属于这种情感类别,反之,若一个情感词关于一种情感类别的卡方统计量越小,代表这个情感词与这种情感类别的相关性越弱,即这个情感词越可能不属于这种情感类别。
卡方统计量的具体计算公式为:
其中,表示评论文本的总数量,/>表示情感类别/>中包含情感词/>的评论文本的数量,/>表示包含情感词/>但不属于情感类别/>的评论文本的数量,/>表示情感类别/>中不包含情感词/>的评论文本的数量,/>表示不包含情感词/>且不属于情感类别/>的评论文本的数量。
获得每一个情感词对每一种情感类别的卡方统计量后,针对每一种情感类别,将所有情感词按照与该情感类别的卡方统计量从大到小进行排序,获得该情感类别的情感词的排序结果,排序结果中的第一个情感词与该情感类别的卡方统计量最大,即第一个情感词的情感类别最可能为该情感类别,排序结果中的最后一个情感词与该情感类别的卡方统计量最小,即最后一个情感词的情感类别最可能不属于该情感类别。
获得关于某一种情感类别的卡方统计量的情感词排序结果后,计算每个情感词关于该情感类别的情感覆盖度,情感覆盖度用于表示情感词关于该情感类别的覆盖程度,情感词关于情感类别/>的情感覆盖度用/>表示,其具体计算公式为
/>
其中,为属于情感类别/>的所有评论文本的数量,/>为/>中包含情感词的评论文本的数量。
将上述获得的关于某一种情感类别的每个情感词的情感覆盖度,按照上述情感词排序后的结果依次相加,获得该情感类别的累计覆盖度,用表示,其具体计算公式为:
设置一个阈值记为第一预设阈值,对于每一种情感词,选出情感覆盖度大于该阈值的所有情感词,将这些情感词的情感类别确定为该情感类别,比如对于情感类别,阈值为0.9,按照获得的关于情感类别/>的卡方统计量的从大到小的排序结果记为,依次将这些情感词的情感覆盖度进行相加,选出/>第一次大于0.9时的所有情感词,将这些情感词的情感类别确定为该情感类别,比如/>,则将/>的情感类别确定为/>
在本申请实施例中,对于经过上述步骤没有确定情感类别的情感词进行过滤,即对这些情感词进行删除,不作为本申请中补充到情感词典中的情感词。
在本申请中的另一种实施例中,情感类别包括正向、负向和中性,对于经过上述步骤没有确定情感类别的情感词,将这些情感词的情感类别定义为中性。
通过本申请实施例,针对一种情感类别,获得了所有情感词关于该情感类别的卡方统计量,并根据卡方统计量为情感词进行了排序,然后计算量每个情感词关于该情感类别的情感覆盖度,按照预先的排序结果,对每个情感词的情感覆盖度进行相加,获得关于该情感类别的累计覆盖度,当计算累计覆盖度时,将进行求和的所有情感词的情感类别确定为该情感类别。在本申请实施例中通过卡方统计量、情感覆盖度和累积覆盖度等统计量,获得了目标事件评论文本中的情感词的情感类别,使得本身实施例中获得情感词的情感类别更加准确,更能够反映情感词的情感倾向。
作为一种可选实施例,将情感词补充到通用情感词典中的相应情感类别的词集中,之后还包括:
S501、确定通用情感词典中各个情感词的第一向量表示;
S502、对各个情感词的第一向量表示进行降维,获得各个情感词的第二向量表示;
S503、根据各个情感词的第二向量表示,对各个情感词进行聚类,获得多个新词集,新词集的数量为情感类别的数量;
S504、对于每个新词集,将新词集中占比最高的情感类别,作为新词集对应的情感类别。
请参见图5,其示例性地示出了本申请实施例对通用情感词典中的情感词进行聚类的流程示意图。
在本申请实施例中,为进一步确定通用情感词典中情感词的情感类别,对通用情感词典中的每个情感词进行重新聚类,重新确定每个情感词的情感类别。
通过步骤S501,获得通用情感词中每个情感词的向量表示,称为第一向量表示,在本申请实施例中,通过word2vec算法和emoji2vec算法,分别获得情感词为文字词语的第一向量表示和情感词为表情符号的第一向量表示。通过获得情感词的第一向量表示,该可以把情感词包含的丰富语义、语序等信息转化为固定维度空间中的向量,便于进行分析和处理。
在本申请实施例中,由于步骤S501获得的第一向量是高维向量,对高维向量进行分析和处理需要耗费大量的计算资源,因此对第一向量进行降维,获得情感词的低维向量表示,记为第二向量表示。可以通过t-SNE算法对第一向量表示进行降维,t-SNE算法是一种基于非线性降维技术的机器学习算法。它通过保留数据点之间的相似度关系,将高维数据映射到低维空间,以便于可视化和理解。
在本申请实施例中,通过所有情感词的第二向量表示,为所有情感词进行聚类,聚类的类别数量设置为情感类别的数量,使得聚类后获得的新词集能够对应不同的情感类别。聚类是一种无监督学习方法,它将相似的数据点归为一类,不同的数据点归为不同的类别。聚类的目标是在数据中发现隐藏的模式和结构,并将数据点分组成具有相似特征的簇。在本申请实施例中,将相似情感类别的情感词分组成的多个簇,因为每个簇中的数据为情感词,因此将聚类后生成的簇记为新词集。
在本申请实施例中,获取对应情感类别数量的多个新词集后,根据新词集中每个情感词的情感类别,获得新词集中每种情感类别包含情感词的数量,确定该新词集中每种情感类别包含情感词的数量的占比情况,将包含情感词的数量占比最高的情感类别确定该新词集的情感类别,即该新词集中所有情感词的情感类别确定为包含情感词的数量占比最高的情感类别。
可以理解的是,情感倾向越接近的情感词会聚类到相同的新词集中,因此按照新词集中每个情感类别包含情感词的数量占比情况,确定该新词集中的情感类别。通过对通用情感词典中每个情感类别的词集中的情感词进行聚类,获得了新词集,重新确定每个情感词的情感类别,更新了通用情感词典,使得通用情感词典中情感词的情感类别更加准确。
作为一种可选实施例,根据各个情感词的第二向量表示,对各个情感词进行聚类,获得多个新词集,包括执行迭代步骤,迭代步骤包括:
S601、对于本轮迭代的每个参考词集,根据参考词集中各个情感词的第二向量表示,确定参考词集的离散程度;
S602、对于本轮迭代的每个参考词集,若每个参考词集的离散程度都符合预设条件时,将每个参考词集作为新词集;
S603、对于本轮迭代的每个参考词集,若存在一个参考词集的离散程度不符合预设条件,则对参考词集中的各个情感词重新分配,获得下轮迭代的参考词集。
请参见图6,其示例性地示出了本申请实施例对各个情感词进行聚类,获得多个新词集,执行迭代步骤的流程示意图。
在本申请实施例中,通过设置预设条件,采用迭代的方式对通用情感词的情感词进行聚类,并将每一代迭代过程中的初始词集称为参考词集。在步骤S502中,获得了情感词的第二向量表示,可以理解的是,一个参考词集中情感词的离散程度可以根据参考词集中情感词的向量表示进行计算得到,因此通过情感词的第二向量表示能够获得参考词集的离散程度,离散程度越小说明参考词集中的情感词越密集,离散程度越大说明参考词集的情感词越分散,为参考词集的情感词的离散程度设置预设条件,当参考词集的离散程度满足预设条件,则不对参考词集中的情感词进行重新分配,若参考词集的离散程度不满足预设条件,则对参考词集中的情感词进行重新分配。在本申请实施例中,预设条件可以是离散程度小于一个固定的数值,也可以是离散程度趋于稳定,即离散程度在某个固定数值的邻域内波动,其中/>为预设的波动值,还可以是重新分配的次数达到预设的数值。
在本申请实施例中,参考词集的离散程度可以为该参考词集中所有情感词特征值的标准差,情感词的特征值可以是每个情感词对应的第二向量表示到原点的欧式距离。
在本申请实施例中,通过判断参考词集离散程度的预设条件,对参考词集中的每个情感词进行重新分配,使得分配后的参考词集中的情感词的离散程度越来越小或越来越稳定,从而参考词集中情感词的第二向量表示越来越密集,即情感词的情感倾向趋向于一致。
作为一种可选实施例,对参考情感词中的各个情感词重新分配,包括:
S701、对于参考词集中的每个情感词,根据情感词的第二向量表示,获得情感词的特征值;
S702、根据参考词集中各个情感词的特征值,获得参考词集的特征值;
S703、对于参考词集中的每个情感词,根据情感词的特征值和参考词集的特征值,确定情感词属于参考词集的真值;
S704、对于参考词集中的每个情感词,若情感词属于参考此集的真值不小于第二预设阈值,则将情感词保留在参考词集中,若情感词属于参考词集的真值小于第二预设阈值,则确定情感词属于其他参考词集的真值,将情感词移动至最大真值对应的参考词集。
请参见图7,其示例性地示出了本申请实施例对参考情感词中的各个情感词重新分配的流程示意图。
在本申请实施例中,通过对情感词的第二向量表示进行分析处理,重新分配每个情感词。情感词的第二向量表示可以是一种二维向量表示,也可以是其他维度的低维向量表示,在本申请中不做限制。通过情感词的第二向量表示,获取每个情感词的特征值,用于反映每个情感词的特征属性。特征值可以是每个情感词到原点的欧式距离,此处的原点为维数与第二向量维数相同,且每个元素都是0的向量。
在本申请实施例中,将每个参考词集中每个情感词的特征值的平均值作为参考词集的特征值,用于反映参考词集中所有情感词的总体特征属性。
在本申请实施例中,对于一个参考词集以及该参考词集中的一个情感词,通过该参考词集的特征值和该情感词的特征值,获得该情感词属于该参考词集的真值。
在本申请实施例中,情感类别有正向、负向和中性三种,因此每次聚类过程中有三个参考词集,情感词的第二向量表示为二维向量表示,因此可以将每个情感词表示为,其中/>表示该情感词的二维特征向量的第一个分量,/>表示该情感词的二维特征向量的第二个分量。
在本申请实施例中,对于上述三个参考词集,分别记为参考词集1、参考词集2和参考词集3。对于参考词集1中的某个情感词,将该情感词的特征值记为/>,对于参考词集2中的某个情感词/>,将该情感词的特征值记为/>,对于参考词集3中的某个情感词/>,将该情感词的特征值记为/>
在本申请实施例中,每个情感词的特征值为该情感词二维向量表示下的欧氏距离,因此的具体表示为
其中,为1、2、3,用于表示情感词/>具体属于哪个参考情感词集。设每个参考词集的特征值分别为/>、/>和/>,因为每个参考词集的特征值为该参考词集中每个情感词的特征值的均值,因此每个/>具体表示为:
其中,依然表示1、2和3,/>为参考词集/>中情感词的数量,/>表示对参考词集/>的所有特征值求和。
在本申请实施例中,根据参考词集1的情感词的特征值/>和参考词集/>的特征值/>获得该情感词属于参考词集1的真值/>,/>的具体表示为:
同样的,根据参考词集2的情感词的特征值/>和参考词集2的特征值获得该情感词属于参考词集2的真值/>;根据参考词集3的情感词/>的特征值/>和参考词集3的特征值/>获得该情感词属于参考词集的真值,/>和/>具体表示为:
其中,表示取计算结果的绝对值。
在本申请实施例中,还定义了假值。根据参考词集1的情感词的特征值和参考词集/>的特征值/>获得该情感词属于参考词集1的假值/>的具体表示为:
同样的,和/>的具体表示为:
在本申请实施例中,还定义了不确定性值。参考词集1的情感词属于参考词集1的不确定性值/>表示为
其中,表示参考词集1中的情感词/>属于参考词集2的真值,/>表示参考词集1中的情感词/>属于参考词集3的真值,/>和/>的具体为
其中,表示不确定性值/>的范围为/>之间,但/>与/>没有大小关系,也就是说,/>可以比/>大,也可以比/>小。即本申请中定义的不确定性是一个范围概念。
同样的,和/>的具体表示为:
其中,、/>、/>和/>具体为
在本申请实施例中,对于一个情感词,首先确定该情感词集在上轮迭代过程中被分配到哪一个参考词集,计算该情感词集属于该参考词集的真值。若真值不小于第二预设阈值,则将该情感词保留在该参考词集中,若真值小于第二预设阈值,则计算该情感词属于另外两个参考词集的真值的大小,将该参考词集分配到最大真值的参考词集中。
具体地,对于参考词集1,第二预设阈值为判断参考词集1中的情感词是否需要离开参考词集1的数值,将参考词集/>的第二预设阈值记为/>,/>的具体表示如下:
其中表示参考词集1中每个情感词属于参考词集1真值的最小值,表示参考词集1中每个情感词属于参考词集1真值的最大值,将/>作为参考词集1的第二预设阈值,/>为比例系数,在本申请实施例中/>取值为0.8。
同样的,参考词集2和参考词集3的第二预设阈值和/>的具体为
/>
根据、/>和/>为参考词集1、参考词集2和参考词集3中的情感词进行重新分配。具体的,对于参考词集1中的情感词/>,若该情感词的特征值/>大于或等于/>,则将情感词/>保留在参考词集1中,若该情感词的特征值/>小于,则将情感词/>移出参考词集1。
根据情感词的不确定性值,将情感词/>分配到参考词集2或参考词集3中,具体的,对于情感词/>的不确定性值/>,由不确定性值的定义可知,,在本申请实施例中,如果/>大于/>,则将情感词/>分配到参考词集2中,如果/>小于/>,则将情感词/>分配到参考词集3中,如果/>等于/>,则将情感词/>随机分配到参考词集2或参考词集3中,也就是说,根据情感词/>属于参考词集2和参考词集3的真值大小,分配该情感词。
同样的,按照上述逻辑,为参考词集2和参考词集3中的情感词进行重新分配。
在本申请实施例中,通过定义某参考词集中情感词属于该参考词集的真值,假值和不确定性值,对该情感词属于该参考词集的程度数量化,并且,按照上述方式,实现了将情感词进行重新分配,获得了新的参考词集,可以理解的是,补充后的通用情感词典中的情感词是十分丰富的,因此每个情感类别中的情感词的数量也是非常多的,所以按照上述分配过程,不会出现某个参考词集中的情感词数量为零的情况,即重新分配后会保持原有参考词集的数量,即保证了最终聚类后生成新词集的数量与本申请实施例中情感类别的数量相同。
为解决上述技术问题在本申请实施例还提供了一种科技风险事件相关舆情的情感词典构建装置。具体请参阅图8,图8为在本申请实施例提供的情感词典构建装置基本结构框图。
获取模块801,用于获取目标事件的多个评论文本,以及每个评论文本中的情感词。
在本申请实施例中,目标事件为目标领域中出现的事件,目标领域可以为前沿科技领域,目标事件可以为前沿科技领域的某网络舆论事件。目标事件的评论文本可以从用户可以发表评论的网络平台获得,网络平台可以是今日头条、微博、抖音、小红书等网络平台的至少一者。可以理解的是,评论文本能够表达评论者关于某件事的态度,因此具有情感倾向,评论文本中的词汇与评论文本的情感倾向密切相关,获取评论文本中的形容词、名词和动词以及与连词、程度副词和定词激进行搭配的词,并将这些词记作为情感词。可以理解的是,有一些词汇本身没有情感倾向,但是当这些词汇出现在评论文本时,能够反映评论文本的情感倾向,而这些词汇没有被通用情感所记录,而这些词汇一般是形容词、名词和动词以及与连词、程度副词和定词进行搭配的词汇。
输入模块802,用于将各评论文本输入到预先训练的情感分类模型,获得情感分类模型输出的各评论文本的情感类别。
将获取的目标事件的每个评论文本作为预先训练的情感分类模型的输入数据,通过情感分类模型判断每个评论文本的情感倾向,输出每个评论文本的情感倾向即情感类别。
情感分类模型是一种用于对输入数据的情感倾向进行分类的模型,本质是一种数据分类模型,通过制作情感分类样本数据,对原始的数据分类模型进行训练,经过训练后的数据分类模型能够对评论文本进行情感类别的分类,因此将训练后的是数据分类模型记为情感分类模型。通过将每个评论文本输入到情感分类模型中获得每个评论文本的情感类别。
作为本申请的另一种实施例,通过情感分类模型获得评论文本的情感类别后,专业人员对于输出错误的评论文本的情感类别进行修正,获得每个评论文本的情感类别。为保证得到的评论文本的情感类别的正确性,在情感分类模型的分类结果的基础上,结合专业人员修正,使得最终的评论文本的情感类别更加准确。
确定模块803,用于对于每个情感词,根据出现情感词的评论文本的情感类别,确定情感词的情感类别。
在本实施例中,根据出现每个情感词的评论文本的情感类别,获得获取模块801获得的每个情感词的情感类别。可以理解的是,情感词对于评论文本所属的情感类别的判断具有重要的参考意义,比如“我反对这个观点!”,通过情感词“反对”,能够判断出这句话的情感倾向,同样的,根据评论文本的情感类别也能够反映出出现在评论文本中情感词的情感倾向。所以,在本申请实施例中,将评论文本的情感类别作为确定评论文本中情感词的情感类别的依据。
补充模块804,用于将情感词补充到通用情感词典中的相应情感类别的词集。
在本申请实施例中,由于通用情感词典对目标领域的情感分析精度低,因此将获取模块801获得的目标领域的情感词补充到通用情感词典中,具体得,按照确定模块803获得的每个情感词的情感类别,将情感词补充到通用情感词典的相应情感类别的词集中,在通用情感词典中,每一个情感类别的词构成了一个词集。
将某个情感词补充至情感词典时,首先判断通用情感词典中是否存在该情感词,若情感词典中不存在该情感词时,将该情感词补充到通用情感词典中,若通用情感词典中存在该情感词,则不将该情感词补充到通用情感词典中。
通过将新获取的情感词补充到通用情感词典中,扩充了通用情感词典,提高了通用情感词典在目标领域进行情感分析的能力。
在本申请实施例中,情感类别包括正向、负向和中性三种类别,通用情感词典为大连理工大学通用情感词典,大连理工大学通用情感词典中强情感进行分为了七种类别,分别为:“乐”、“好”、“怒”、“哀”、“惧”、“恶”和“惊”,在本申请实施例中,将大连理工大学通用情感词典中的七种情感类别合并为三种,“乐”、“好”定义为正向;“怒”、“哀”、“惧”、“恶”定义为负向;“惊”定义为中性。
在本实施例中,将情感类别设定为三类,即正向、负向和中性,其中正向表示支持、负向表示反对、中性表示中立,有利于获得网络用户对于前沿科技领域的一些舆论事件的态度,比如支持、反对和中立等。
在本申请实施例中,通过情感分类模型对目标事件的评论文本的情感类别进行分类,获得了评论文本的情感类别,通过评论文本的情感类别获得了目标领域中情感词的情感类别,将情感词补充到通用情感词典中,构建出新的通用情感词典,新的通用情感词典包含了目标领域的情感词,因此更加适用于对目标领域的情感分析问题。
本申请实施例中提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,该处理器执行上述计算机程序以实现网络设备故障处理方法的步骤,与相关技术相比可实现:对通用情感词典中的情感词进行了补充。这样,构建出了新的通用情感词典,新的通用情感词典中包括了目标领域情感词的情感类别,相比于原通用情感词典,新的通用情感词典能够适用于特定领域的情感分析问题。
在一个可选实施例中提供了一种电子设备,如图9所示,图9所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质,在此不做限定。
存储器4003用于存储执行本申请实施例的计算机程序,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序,以实现前述方法实施例所示的步骤。
其中,电子设备包可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图9所示的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。与现有技术相比可实现:对通用情感词典中的情感词进行了补充。这样,构建出了新的通用情感词典,新的通用情感词典中包括了目标领域情感词的情感类别,相比于原通用情感词典,新的通用情感词典能够适用于特定领域的情感分析问题。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。
应该理解的是,虽然本申请实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本申请实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本申请实施例对此不限制。
以上所述仅是本申请部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的方案技术构思的前提下,采用基于本申请技术思想的其他类似实施手段,同样属于本申请实施例的保护范畴。

Claims (8)

1.一种科技风险事件相关舆情的情感词典构建方法,其特征在于,包括:
获取目标事件的多个评论文本,以及每个评论文本中的情感词;
将各评论文本输入到预先训练的情感分类模型,获得所述情感分类模型输出的各评论文本的情感类别;
对于每个情感词,根据出现所述情感词的评论文本的情感类别,确定所述情感词的情感类别;
将所述情感词补充到通用情感词典中的相应情感类别的词集;
所述情感分类模型的训练方法包括:
确定大语言模型,所述大语言模型是基于通用领域的样本文本训练而成的;
获得第一数据集,所述第一数据集包括多个第一训练样本和每个第一训练样本的第一训练标签,所述第一训练样本为所述目标事件所属目标领域的词汇,第一训练标签为每个词汇对应的文字解释;
基于第一数据集和预设的第一输出指令对所述大语言模型进行第一次微调,直至所述大语言模型具备所述词汇的理解能力,所述第一输出指令用于指示所述大语言模型输出第一训练样本对应的第一训练标签;
获得第二数据集,所述第二数据集包括多个第二训练样本和每个第二训练样本的训练标签,所述第二训练样本为所述目标事件的样本评论文本,第二训练标签为每个样本评论文本的情感类别;
基于第二数据集预设的第二输出指令对所述大语言模型进行第二次微调,直至大语言模型具备对输入的评论文本输出所述评论文本的情感类别的能力,所述第二输出指令用于指示所述大语言模型输出第二训练样本对应的第二训练标签,将所述大语言模型作为所述情感分类模型;
所述根据出现所述情感词的评论文本的情感类别,确定所述情感词的情感类别,包括:
确定每一个情感词对每一种情感类别的卡方统计量,所述卡方统计量表示情感词与情感类别间相关程度;
对于每一种情感类别,将所有情感词按照与所述情感类别的卡方统计量由大到小进行排序,获得所述情感类别的情感词排序结果;
对于每一种情感类别,根据出现所述情感词的评论文本的数量,以及所述情感类别中评论文本的总数量,确定所述情感词关于所述情感类别的情感覆盖度;
对于每一种情感类别,按照对应的情感词排序结果,依次对各个情感词的所述情感覆盖度进行求和,直至求和后的数值达到第一预设阈值时停止,将进行求和的各个情感词的情感类别确定为所述情感类别。
2.根据权利要求1所述的方法,其特征在于,所述获取目标事件的多个评论文本,以及每个评论文本中的情感词,包括:
通过网络爬虫的方式获取目标事件的多个评论文本;
对每个评论文本进行预处理,获得每个评论文本中的情感词;
其中,所述预处理的方式包括分词和去停留词中的至少一者,所述情感词为文字词语和表情符号中的至少一者。
3.根据权利要求1所述的方法,其特征在于,所述将所述情感词补充到通用情感词典中的相应情感类别的词集中,之后还包括:
确定所述通用情感词典中各个情感词的第一向量表示;
对各个情感词的第一向量表示进行降维,获得各个情感词的第二向量表示;
根据各个情感词的第二向量表示,对各个情感词进行聚类,获得多个新词集,所述新词集的数量为情感类别的数量;
对于每个新词集,将所述新词集中占比最高的情感类别,作为所述新词集对应的情感类别。
4.根据权利要求3所述的方法,其特征在于,所述根据各个情感词的第二向量表示,对各个情感词进行聚类,获得多个新词集,包括执行迭代步骤,所述迭代步骤包括:
对于本轮迭代的每个参考词集,根据所述参考词集中各个情感词的第二向量表示,确定所述参考词集的离散程度;
对于本轮迭代的每个参考词集,若每个参考词集的离散程度都符合预设条件时,将每个参考词集作为新词集;
若存在一个参考词集的离散程度不符合预设条件,则对所述参考词集中的各个情感词重新分配,获得下轮迭代的参考词集。
5.根据权利要求4所述的方法,其特征在于,对所述参考情感词中的各个情感词重新分配,包括:
对于所述参考词集中的每个情感词,根据所述情感词的第二向量表示,获得所述情感词的特征值;
根据所述参考词集中各个情感词的特征值,获得所述参考词集的特征值;
对于所述参考词集中的每个情感词,根据所述情感词的特征值和所述参考词集的特征值,确定所述情感词属于所述参考词集的真值;
对于所述参考词集中的每个情感词,若所述情感词属于所述参考此集的真值不小于第二预设阈值,则将所述情感词保留在所述参考词集中,若所述情感词属于所述参考词集的真值小于第二预设阈值,则确定所述情感词属于其他参考词集的真值,将所述情感词移动至最大真值对应的参考词集。
6.一种科技风险事件相关舆情的情感词典构建装置,其特征在于,包括:
获取模块,用于获取目标事件的多个评论文本,以及每个评论文本中的情感词;
输入模块,用于将各评论文本输入到预先训练的情感分类模型,获得所述情感分类模型输出的各评论文本的情感类别;
确定模块,用于对于每个情感词,根据出现所述情感词的评论文本的情感类别,确定所述情感词的情感类别;
补充模块,用于将所述情感词补充到通用情感词典中的相应情感类别的词集;所述情感分类模型通过以下方式训练:
确定大语言模型,所述大语言模型是基于通用领域的样本文本训练而成的;
获得第一数据集,所述第一数据集包括多个第一训练样本和每个第一训练样本的第一训练标签,所述第一训练样本为所述目标事件所属目标领域的词汇,第一训练标签为每个词汇对应的文字解释;
基于第一数据集和预设的第一输出指令对所述大语言模型进行第一次微调,直至所述大语言模型具备所述词汇的理解能力,所述第一输出指令用于指示所述大语言模型输出第一训练样本对应的第一训练标签;
获得第二数据集,所述第二数据集包括多个第二训练样本和每个第二训练样本的训练标签,所述第二训练样本为所述目标事件的样本评论文本,第二训练标签为每个样本评论文本的情感类别;
基于第二数据集预设的第二输出指令对所述大语言模型进行第二次微调,直至大语言模型具备对输入的评论文本输出所述评论文本的情感类别的能力,所述第二输出指令用于指示所述大语言模型输出第二训练样本对应的第二训练标签,将所述大语言模型作为所述情感分类模型;
所述根据出现所述情感词的评论文本的情感类别,确定所述情感词的情感类别,包括:
确定每一个情感词对每一种情感类别的卡方统计量,所述卡方统计量表示情感词与情感类别间相关程度;
对于每一种情感类别,将所有情感词按照与所述情感类别的卡方统计量由大到小进行排序,获得所述情感类别的情感词排序结果;
对于每一种情感类别,根据出现所述情感词的评论文本的数量,以及所述情感类别中评论文本的总数量,确定所述情感词关于所述情感类别的情感覆盖度;
对于每一种情感类别,按照对应的情感词排序结果,依次对各个情感词的所述情感覆盖度进行求和,直至求和后的数值达到第一预设阈值时停止,将进行求和的各个情感词的情感类别确定为所述情感类别。
7.一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-5任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-5任一项所述方法的步骤。
CN202311477949.6A 2023-11-08 2023-11-08 科技风险事件相关舆情的情感词典构建方法及装置 Active CN117217218B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311477949.6A CN117217218B (zh) 2023-11-08 2023-11-08 科技风险事件相关舆情的情感词典构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311477949.6A CN117217218B (zh) 2023-11-08 2023-11-08 科技风险事件相关舆情的情感词典构建方法及装置

Publications (2)

Publication Number Publication Date
CN117217218A CN117217218A (zh) 2023-12-12
CN117217218B true CN117217218B (zh) 2024-01-23

Family

ID=89039334

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311477949.6A Active CN117217218B (zh) 2023-11-08 2023-11-08 科技风险事件相关舆情的情感词典构建方法及装置

Country Status (1)

Country Link
CN (1) CN117217218B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794212A (zh) * 2015-04-27 2015-07-22 清华大学 基于用户评论文本的上下文情感分类方法及分类系统
CN108763214A (zh) * 2018-05-30 2018-11-06 河海大学 一种针对商品评论的情感词典自动构建方法
CN109376251A (zh) * 2018-09-25 2019-02-22 南京大学 一种基于词向量学习模型的微博中文情感词典构建方法
CN110413780A (zh) * 2019-07-16 2019-11-05 合肥工业大学 文本情感分析方法、装置、存储介质及电子设备
WO2019227710A1 (zh) * 2018-05-31 2019-12-05 平安科技(深圳)有限公司 网络舆情的分析方法、装置及计算机可读存储介质
CN111221962A (zh) * 2019-11-18 2020-06-02 重庆邮电大学 一种基于新词扩展与复杂句式扩展的文本情感分析方法
CN113806545A (zh) * 2021-09-24 2021-12-17 重庆理工大学 基于标签描述生成的评论文本情感分类方法
CN116361472A (zh) * 2023-05-02 2023-06-30 周维 社交网络评论热点事件舆情大数据分析系统
CN116911286A (zh) * 2023-07-21 2023-10-20 中国联合网络通信集团有限公司 词典构建方法、情感分析方法、装置、设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794212A (zh) * 2015-04-27 2015-07-22 清华大学 基于用户评论文本的上下文情感分类方法及分类系统
CN108763214A (zh) * 2018-05-30 2018-11-06 河海大学 一种针对商品评论的情感词典自动构建方法
WO2019227710A1 (zh) * 2018-05-31 2019-12-05 平安科技(深圳)有限公司 网络舆情的分析方法、装置及计算机可读存储介质
CN109376251A (zh) * 2018-09-25 2019-02-22 南京大学 一种基于词向量学习模型的微博中文情感词典构建方法
CN110413780A (zh) * 2019-07-16 2019-11-05 合肥工业大学 文本情感分析方法、装置、存储介质及电子设备
CN111221962A (zh) * 2019-11-18 2020-06-02 重庆邮电大学 一种基于新词扩展与复杂句式扩展的文本情感分析方法
CN113806545A (zh) * 2021-09-24 2021-12-17 重庆理工大学 基于标签描述生成的评论文本情感分类方法
CN116361472A (zh) * 2023-05-02 2023-06-30 周维 社交网络评论热点事件舆情大数据分析系统
CN116911286A (zh) * 2023-07-21 2023-10-20 中国联合网络通信集团有限公司 词典构建方法、情感分析方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于词典的文本极性计算及分类研究;薛兴荣;靳其兵;;网络安全技术与应用(第04期);全文 *

Also Published As

Publication number Publication date
CN117217218A (zh) 2023-12-12

Similar Documents

Publication Publication Date Title
Devika et al. Sentiment analysis: a comparative study on different approaches
CN110427623A (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
Banik et al. Evaluation of naïve bayes and support vector machines on bangla textual movie reviews
US9613133B2 (en) Context based passage retrieval and scoring in a question answering system
Gupta et al. Toward integrated CNN-based sentiment analysis of tweets for scarce-resource language—Hindi
Banik et al. Gru based named entity recognition system for bangla online newspapers
CN113392179A (zh) 文本标注方法及装置、电子设备、存储介质
Li et al. Intention understanding in human–robot interaction based on visual-NLP semantics
CN111931516A (zh) 一种基于强化学习的文本情感分析方法及系统
Algburi et al. Comparative analysis for arabic sentiment classification
Hossain et al. Leveraging the meta-embedding for text classification in a resource-constrained language
Huang et al. Sentiment analysis algorithm using contrastive learning and adversarial training for POI recommendation
Samih et al. Enhanced sentiment analysis based on improved word embeddings and XGboost.
Sitender et al. Effect of GloVe, Word2Vec and FastText Embedding on English and Hindi Neural Machine Translation Systems
Aggarwal et al. Sentiment Analysis of Tweets Using Supervised Machine Learning Techniques Based on Term Frequency
CN111241848B (zh) 一种基于机器学习的文章阅读理解答案检索方法及装置
Bettiche et al. Opinion mining in social networks for Algerian dialect
Abdelfattah et al. ArSentBERT: fine-tuned bidirectional encoder representations from transformers model for Arabic sentiment classification
CN117217218B (zh) 科技风险事件相关舆情的情感词典构建方法及装置
Gan et al. Enhancing microblog sentiment analysis through multi-level feature interaction fusion with social relationship guidance
Rabbimov et al. Opinion classification via word and emoji embedding models with LSTM
Rabby et al. Establishing a formal benchmarking process for sentiment analysis for the bangla language
Tho N/A Modern Approaches in Natural Language Processing
Le et al. A multi-filter BiLSTM-CNN architecture for vietnamese sentiment analysis
Ranzato A text segmentation technique based on language models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant