CN113505582A - 一种音乐评论情感分析方法、设备及介质 - Google Patents
一种音乐评论情感分析方法、设备及介质 Download PDFInfo
- Publication number
- CN113505582A CN113505582A CN202110571946.3A CN202110571946A CN113505582A CN 113505582 A CN113505582 A CN 113505582A CN 202110571946 A CN202110571946 A CN 202110571946A CN 113505582 A CN113505582 A CN 113505582A
- Authority
- CN
- China
- Prior art keywords
- emotion
- training data
- vector
- preset
- analysis model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种音乐评论情感分析方法、设备及介质,获取训练数据集;训练数据集中至少包括利用预设句式模板以及预设情感词典生成的情感分类训练数据,预设句式模板包括比较型句式模板,预设情感词典包括预设网络词汇及其情感极性信息;利用预设情感词典生成每个情感分类训练数据对应的第一嵌入向量;基于每个情感分类训练数据对应的指定评价对象信息生成每个情感分类训练数据对应的第二嵌入向量;基于第一嵌入向量、第二嵌入向量对情感分析模型进行训练,得到训练后情感分析模型;当获取到待分析音乐评论,则利用训练后情感分析模型确定待分析音乐评论对应的情感极性。能够提升情感分析模型的性能,从而提升音乐评论情感分析的准确度。
Description
技术领域
本申请涉及自然语言处理技术领域,特别涉及一种音乐评论情感分析方法、设备及介质。
背景技术
文本情感分析是指利用自然语言处理等方法来识别和提取文本中的主观信息。通常来说,情感分析的目的是为了找出说话的人在某些话题上或者针对一个文本两极(正向或负向)的观点的态度。音乐的评论是用户表达观点和情感的重要窗口,利用情感分析技术,可以从中获取用户对歌曲歌手的正负评价,并作为评价对象优劣的重要指标。音乐平台下的评论具有文本中存在大量网络用语、句式复杂,存在较多的comparative(比较型句式,具有一个以上的评价对象)的特点。
目前,情感分析技术的应用场景中文本的词法、句法以及语义复杂程度相对较低,利用BERT(即Bidirectional Encoder Representations from Transformers,基于Transformer的双向编码器)、GRU(即Gated Recurrent Unit,门限循环神经网路)、TextCNN(用于文本分类任务的卷积神经网络模型)等基础的分类模型进行简单分类,就可以达到可用的效果,但由于音乐平台下的评论具有网络词汇多,句式复杂等特点,利用基础的分类模型难以得到较好的效果。综上,在实现本申请过程中,发明人发现现有技术中至少存在针对音乐评论的模型性能较差,音乐评论情感分析不准确的问题。
发明内容
有鉴于此,本申请的目的在于提供一种音乐评论情感分析方法、设备及介质,能够提升情感分析模型的性能,从而提升音乐评论情感分析的准确度。其具体方案如下:
第一方面,本申请公开了一种音乐评论情感分析方法,包括:
获取训练数据集;其中,所述训练数据集中至少包括利用预设句式模板以及预设情感词典生成的情感分类训练数据,所述预设句式模板包括比较型句式模板,所述预设情感词典包括预设网络词汇以及所述预设网络词汇的情感极性信息;
利用所述预设情感词典生成所述训练数据集中每个情感分类训练数据对应的第一嵌入向量;
基于所述训练数据集中每个情感分类训练数据对应的指定评价对象信息生成每个情感分类训练数据对应的第二嵌入向量;
基于所述第一嵌入向量、所述第二嵌入向量对情感分析模型进行训练,得到训练后情感分析模型;
当获取到待分析音乐评论,则利用所述训练后情感分析模型确定所述待分析音乐评论对应的情感极性。
可选的,所述利用所述预设情感词典生成所述训练数据集中每个情感分类训练数据对应的第一嵌入向量;基于所述训练数据集中每个情感分类训练数据对应的指定评价对象信息生成每个情感分类训练数据对应的第二嵌入向量,包括:
利用所述预设情感词典生成所述训练数据集中每个情感分类训练数据对应的第一padding特征;其中,所述第一padding特征为利用第一特征值和/或第二特征值和/或第三特征值表示的特征向量;其中,所述第一特征值表示情感分类训练数据中对应位置的字符的情感极性为正向,所述第二特征值表示情感分类训练数据中对应位置的字符的情感极性为负向,所述第三特征值表示情感分类训练数据中对应位置的字符无情感极性或情感极性为中立;
将每个所述第一padding特征映射为对应的第一嵌入向量;
基于所述训练数据集中每个情感分类训练数据对应的指定评价对象信息生成每个情感分类训练数据对应的第二padding特征;其中,所述第二padding特征为利用第四特征值和/或第五特征值表示的特征向量,并且,所述第四特征值表示情感分类训练数据中对应位置的字符所属的词为基于所述指定评价对象信息确定的指定对象,所述第五特征值表示情感分类训练数据中对应位置的字符不属于所述指定对象;
将每个所述第二padding特征映射为对应的第二嵌入向量。
可选的,所述利用所述预设情感词典生成所述训练数据集中每个情感分类训练数据对应的第一padding特征,包括:
若在所述预设情感词典中查找到所述训练数据集中每个情感分类训练数据中的词,且该词的情感极性为正向,则将该词的每个字符在所述第一padding特征中的相应位置直接利用所述第一特征值表示;
若在所述预设情感词典中查找到所述训练数据集中每个情感分类训练数据中的词,且该词的情感极性为负向,则将该词的每个字符在所述第一padding特征中的相应位置直接利用所述第二特征值表示;
若在所述预设情感词典中查找不到所述训练数据集中每个情感分类训练数据中的词,则将该词的每个字符在所述第一padding特征中的相应位置利用所述第三特征值表示。
可选的,所述利用所述预设情感词典生成所述训练数据集中每个情感分类训练数据对应的第一padding特征,包括:
若在所述预设情感词典中查找到所述训练数据集中每个情感分类训练数据中的词,且该词的情感极性为正向,则利用预设概率值确定该词的每个字符在所述第一padding特征中的相应位置利用所述第一特征值或所述第三特征值表示;
若在所述预设情感词典中查找到所述训练数据集中每个情感分类训练数据中的词,且该词的情感极性为负向,则利用所述预设概率值确定该词的每个字符在所述第一padding特征中的相应位置利用所述第二特征值或所述第三特征值表示;
若在所述预设情感词典中查找不到所述训练数据集中每个情感分类训练数据中的词,则将该词的每个字符在所述第一padding特征中的相应位置利用所述第三特征值表示。
可选的,所述基于所述第一嵌入向量、所述第二嵌入向量对情感分析模型进行训练,得到训练后情感分析模型,包括:
将每个情感分类训练数据输入所述情感分析模型的token嵌入层、segment嵌入层、position嵌入层,得到每个情感分类训练数据对应的token嵌入向量、segment嵌入向量、position嵌入向量;
将每个情感分类训练数据对应的所述token嵌入向量、所述segment嵌入向量、所述position嵌入向量融合,得到每个情感分类训练数据对应的第一融合向量;
将所述第一融合向量进行归一化,得到归一化向量;
将所述归一化向量、所述第一嵌入向量、所述第二嵌入向量融合,得到第二融合向量;
基于所述第二融合向量对情感分析模型进行训练,得到训练后情感分析模型。
可选的,所述基于所述第一嵌入向量、所述第二嵌入向量对情感分析模型进行训练,得到训练后情感分析模型,包括:
基于所述第一嵌入向量、所述第二嵌入向量对情感分析模型进行训练,并在训练过程中确定出相应的目标损失参数;
当所述目标损失参数收敛,则将当前的所述情感分析模型确定为训练后情感分析模型。
可选的,所述基于所述第一嵌入向量、所述第二嵌入向量对情感分析模型进行训练,并在训练过程中确定出相应的目标损失参数,包括:
基于所述第一嵌入向量、所述第二嵌入向量对情感分析模型进行训练,并在训练过程中确定出用于衡量情感极性分类损失的损失参数,将该损失参数确定为目标损失参数。
可选的,所述基于所述第一嵌入向量、所述第二嵌入向量对情感分析模型进行训练,并在训练过程中确定出相应的目标损失参数,包括:
利用所述预设情感词典生成所述训练数据集中每个歌曲歌手评价类训练数据对应的第三嵌入向量;
基于所述训练数据集中每个歌曲歌手评价类训练数据对应的指定评价对象信息生成每个歌曲歌手评价类训练数据对应的第四嵌入向量;
基于所述第一嵌入向量、所述第二嵌入向量、所述第三嵌入向量、所述第四嵌入向量对情感分析模型进行训练,并在训练过程中基于所述第一嵌入向量、所述第二嵌入向量确定出用于衡量情感极性分类损失的第一损失参数,以及基于所述第三嵌入向量、所述第四嵌入向量确定出用于衡量歌手歌曲评价分类损失的第二损失参数;
基于所述第一损失参数以及所述第二损失参数确定出相应的目标损失参数。
可选的,所述基于所述第一损失参数以及所述第二损失参数确定出相应的目标损失参数,包括:
利用所述第一损失参数以及所述第一损失参数对应的第一预设权重系数、所述第二损失参数以及所述第二损失参数对应的第二预设权重系数进行加权计算,得到相应的目标损失参数。
可选的,所述基于所述第一损失参数以及所述第二损失参数确定出相应的目标损失参数,包括:
利用所述第一损失参数以及所述第一损失参数对应的第一权重系数、所述第二损失参数以及所述第二损失参数对应的第二权重系数进行加权计算,得到相应的目标损失参数;其中,所述第一权重系数以及所述第二权重系数均为通过训练得到的权重系数。
可选的,所述利用所述训练后情感分析模型确定所述待分析音乐评论对应的情感极性,包括:
利用所述训练后情感分析模型确定所述待分析音乐评论的歌曲歌手评价类分类结果,以及情感极性分类结果,若所述歌曲歌手评价类分类结果为所述待分析音乐评论为歌曲歌手评价类,则将所述情感极性分类结果确定为所述待分析音乐评论对应的情感极性。
第二方面,本申请公开了一种音乐评论情感分析装置,包括:
训练数据获取模块,用于获取训练数据集;其中,所述训练数据集中至少包括利用预设句式模板以及预设情感词典生成的情感分类训练数据,所述预设句式模板包括比较型句式模板,所述预设情感词典包括预设网络词汇以及所述预设网络词汇的情感极性信息;
第一嵌入向量确定模块,用于利用所述预设情感词典生成所述训练数据集中每个情感分类训练数据对应的第一嵌入向量;
第二嵌入向量确定模块,用于基于所述训练数据集中每个情感分类训练数据对应的指定评价对象信息生成每个情感分类训练数据对应的第二嵌入向量;
情感分析模型训练模块,用于基于所述第一嵌入向量、所述第二嵌入向量对情感分析模型进行训练,得到训练后情感分析模型;
评论情感极性确定模块,用于当获取到待分析音乐评论,则利用所述训练后情感分析模型确定所述待分析音乐评论对应的情感极性。
第三方面,本申请公开了一种电子设备,包括处理器和存储器;其中,
所述存储器,用于保存计算机程序;
所述处理器,用于执行所述计算机程序以实现前述的音乐评论情感分析方法。
第四方面,本申请公开了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述的音乐评论情感分析方法。
可见,本申请先获取训练数据集;其中,所述训练数据集中至少包括利用预设句式模板以及预设情感词典生成的情感分类训练数据,所述预设句式模板包括比较型句式模板,所述预设情感词典包括预设网络词汇以及所述预设网络词汇的情感极性信息,之后利用所述预设情感词典生成所述训练数据集中每个情感分类训练数据对应的第一嵌入向量,基于所述训练数据集中每个情感分类训练数据对应的指定评价对象信息生成每个情感分类训练数据对应的第二嵌入向量,然后基于所述第一嵌入向量、所述第二嵌入向量对情感分析模型进行训练,得到训练后情感分析模型,当获取到待分析音乐评论,则利用所述训练后情感分析模型确定所述待分析音乐评论对应的情感极性。也即,本申请利用比较型句式模板生成情感分类训练数据,并利用预设情感词典生成情感分类训练数据的第一嵌入向量,基于指定评价对象信息生成情感分类训练数据的第二嵌入向量,这样,利用词嵌入的方法,融入预设网络词汇,利用比较型句式模板生成比较型句式的情感分类训练数据,并通过指定评价对象信息生成对应的嵌入向量,使训练得到的情感分析模型具备识别网络词汇以及处理比较型句式的能力,能够提升情感分析模型的性能,从而提升音乐评论情感分析的准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的音乐评论情感分析方案所适用的系统框架示意图;
图2为本申请提供的一种音乐评论情感分析方法流程图;
图3为本申请提供的一种具体的音乐评论情感分析方法流程图;
图4为本申请提供的一种特征融合示意图;
图5为本申请提供的一种具体的音乐评论情感分析方法流程图;
图6为本申请提供的一种具体的情感分析模型训练流程图;
图7为本申请提供的一种具体的情感分析模型结构示意图;
图8为本申请提供的一种音乐评论情感分析装置结构示意图;
图9为本申请提供的一种电子设备结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,情感分析技术的应用场景中文本的词法、句法以及语义复杂程度相对较低,利用BERT、GRU、TextCNN等基础的分类模型进行简单分类,就可以达到可用的效果,但由于音乐平台下的评论具有网络词汇多,句式复杂等特点,利用基础的分类模型难以得到较好的效果。综上,在实现本申请过程中,发明人发现现有技术中至少存在针对音乐评论的模型性能较差,音乐评论情感分析不准确的问题。为此,本申请提供了一种音乐评论情感分析方案,能够提升情感分析模型的性能,从而提升音乐评论情感分析的准确度。
本申请的音乐评论情感分析方案中,采用的系统框架图可以参见图1所示,具体可以包括:后台服务器和与后台服务器建立通信连接的若干数量的用户端。其中,用户端包括但不限于平板电脑、笔记本电脑、智能手机、个人电脑(personal computer,PC),此处不做限定。
本申请中,后台服务器执行的步骤,包括获取训练数据集;其中,所述训练数据集中至少包括利用预设句式模板以及预设情感词典生成的情感分类训练数据,所述预设句式模板包括比较型句式模板,所述预设情感词典包括预设网络词汇以及所述预设网络词汇的情感极性信息;利用所述预设情感词典生成所述训练数据集中每个情感分类训练数据对应的第一嵌入向量;基于所述训练数据集中每个情感分类训练数据对应的指定评价对象信息生成每个情感分类训练数据对应的第二嵌入向量;基于所述第一嵌入向量、所述第二嵌入向量对情感分析模型进行训练,得到训练后情感分析模型;当获取到待分析音乐评论,则利用所述训练后情感分析模型确定所述待分析音乐评论对应的情感极性。
其中,用户端用于获取用户输入的音乐评论,作为待分析音乐评论传输给后台服务器,以便后台服务器在获取到待分析音乐评论时,利用所述训练后情感分析模型确定所述待分析音乐评论对应的情感极性。
参见图2所示,本申请实施例公开了一种音乐评论情感分析方法,包括:
步骤S101:获取训练数据集;其中,所述训练数据集中至少包括利用预设句式模板以及预设情感词典生成的情感分类训练数据,所述预设句式模板包括比较型句式模板,所述预设情感词典包括预设网络词汇以及所述预设网络词汇的情感极性信息。
在具体的实施方式中,所述训练数据集中可以包括利用预设句式模板以及预设情感词典生成的情感分类训练数据以及人工标注的情感分类训练数据。其中,人工标注的情感分类训练数据中包括情感极性为中立的情感分类训练数据。
并且,为丰富句式,所述句式模板包括但不限于比较型句式模板。另外,所述预设情感词典包括但不限于预先收集的网络词汇,还包括一些通用的表达情感极性的词汇,比如,不好等。
其中,比较型句式模板可以由自然语言文本和自定义标签构成,比如“[Target1]比[Target2]唱得[Positive]Label={Target1:Postive,Target2:Negative}”,[Target*]为评价对象,[Positive]为正向情感词,Label表示分类结果,即自定义标签,对于Target1,该条评论是正向的,而对于Target2,则是负面评价,可以通过预设情感词典对[Target*]和[Positive]进行排列组合,得到多条情感分类训练数据。比如,情感分类训练数据:[歌手A]比[歌手B]唱的[抓耳]。
另外,由于模板生成的数据多样性不够高,可以采用LAMBDADA(即language-model-based data augmentation,基于语言模型的数据增强)技术生成训练数据,以提升训练数据的语法多样性。LAMBDADA技术为GPT(即Generative Pre-Training,生成式的预训练)生成技术。
步骤S102:利用所述预设情感词典生成所述训练数据集中每个情感分类训练数据对应的第一嵌入向量。
步骤S103:基于所述训练数据集中每个情感分类训练数据对应的指定评价对象信息生成每个情感分类训练数据对应的第二嵌入向量。
在具体的实施方式中,可以利用所述预设情感词典生成所述训练数据集中每个情感分类训练数据对应的第一padding特征;其中,所述第一padding特征为利用第一特征值和/或第二特征值和/或第三特征值表示的特征向量;其中,所述第一特征值表示情感分类训练数据中对应位置的字符的情感极性为正向,所述第二特征值表示情感分类训练数据中对应位置的字符的情感极性为负向,所述第三特征值表示情感分类训练数据中对应位置的字符无情感极性或情感极性为中立;将每个所述第一padding特征映射为对应的第一嵌入向量;基于所述训练数据集中每个情感分类训练数据对应的指定评价对象信息生成每个情感分类训练数据对应的第二padding特征;其中,所述第二padding特征为利用第四特征值和/或第五特征值表示的特征向量,并且,所述第四特征值表示情感分类训练数据中对应位置的字符所属的词为基于所述指定评价对象信息确定的指定对象,所述第五特征值表示情感分类训练数据中对应位置的字符不属于所述指定对象;将每个所述第二padding特征映射为对应的第二嵌入向量。
在一种具体的实施方式中,所述利用所述预设情感词典生成所述训练数据集中每个情感分类训练数据对应的第一padding特征,具体包括:
若在所述预设情感词典中查找到所述训练数据集中每个情感分类训练数据中的词,且该词的情感极性为正向,则将该词的每个字符在所述第一padding特征中的相应位置直接利用所述第一特征值表示;若在所述预设情感词典中查找到所述训练数据集中每个情感分类训练数据中的词,且该词的情感极性为负向,则将该词的每个字符在所述第一padding特征中的相应位置直接利用所述第二特征值表示;若在所述预设情感词典中查找不到所述训练数据集中每个情感分类训练数据中的词,则将该词的每个字符在所述第一padding特征中的相应位置利用所述第三特征值表示。
在另一种具体的实施方式中,所述所述利用所述预设情感词典生成所述训练数据集中每个情感分类训练数据对应的第一padding特征,具体包括:
若在所述预设情感词典中查找到所述训练数据集中每个情感分类训练数据中的词,且该词的情感极性为正向,则利用预设概率值确定该词的每个字符在所述第一padding特征中的相应位置利用所述第一特征值或所述第三特征值表示;若在所述预设情感词典中查找到所述训练数据集中每个情感分类训练数据中的词,且该词的情感极性为负向,则利用所述预设概率值确定该词的每个字符在所述第一padding特征中的相应位置利用所述第二特征值或所述第三特征值表示;若在所述预设情感词典中查找不到所述训练数据集中每个情感分类训练数据中的词,则将该词的每个字符在所述第一padding特征中的相应位置利用所述第三特征值表示。
比如,预设概率值为80%,那么若在所述预设情感词典中查找到所述训练数据集中每个情感分类训练数据中的词,且该词的情感极性为正向,则该词的每个字符在所述第一padding特征中的相应位置利用所述第一特征值的概率为80%,利用所述第三特征值表示的概率为20%。
需要指出的是,通过预设概率值调整词典对应的词嵌入特征的占比,能够使得模型既可以较好地利用用户词典信息,又不过于依赖词典,具备提取一般情感词特征的能力。
比如,对于一条评论“周杰伦唱得很抓耳,阿水唱得不好”,若指定对象为周杰伦,“抓耳”、“不好”均在预设情感词典中,该条评论的第一padding特征为“000000110000022”,而第二padding特征为“111000000000000”。之后映射为相应的embedding(嵌入向量),即第一嵌入向量和第二嵌入向量。
另外,若情感分类训练数据没有指定对象,则对应的第二padding特征中的值全部为第五特征值,比如0。
步骤S104:基于所述第一嵌入向量、所述第二嵌入向量对情感分析模型进行训练,得到训练后情感分析模型。
在具体的实施方式中,可以基于所述第一嵌入向量、所述第二嵌入向量对情感分析模型进行训练,并在训练过程中确定出相应的目标损失参数;当所述目标损失参数收敛,则将当前的所述情感分析模型确定为训练后情感分析模型。
具体的,可以基于所述第一嵌入向量、所述第二嵌入向量对情感分析模型进行训练,并在训练过程中确定出用于衡量情感极性分类损失的损失参数,将该损失参数确定为目标损失参数。
步骤S105:当获取到待分析音乐评论,则利用所述训练后情感分析模型确定所述待分析音乐评论对应的情感极性。
可见,本申请实施例先获取训练数据集;其中,所述训练数据集中至少包括利用预设句式模板以及预设情感词典生成的情感分类训练数据,所述预设句式模板包括比较型句式模板,所述预设情感词典包括预设网络词汇以及所述预设网络词汇的情感极性信息,之后利用所述预设情感词典生成所述训练数据集中每个情感分类训练数据对应的第一嵌入向量,基于所述训练数据集中每个情感分类训练数据对应的指定评价对象信息生成每个情感分类训练数据对应的第二嵌入向量,然后基于所述第一嵌入向量、所述第二嵌入向量对情感分析模型进行训练,得到训练后情感分析模型,当获取到待分析音乐评论,则利用所述训练后情感分析模型确定所述待分析音乐评论对应的情感极性。也即,本申请利用比较型句式模板生成情感分类训练数据,并利用预设情感词典生成情感分类训练数据的第一嵌入向量,基于指定评价对象信息生成情感分类训练数据的第二嵌入向量,这样,利用词嵌入的方法,融入预设网络词汇,利用比较型句式模板生成比较型句式的情感分类训练数据,并通过指定评价对象信息生成对应的嵌入向量,使训练得到的情感分析模型具备识别网络词汇以及处理比较型句式的能力,能够提升情感分析模型的性能,从而提升音乐评论情感分析的准确度。
参见图3所示,本申请实施例公开了一种具体的音乐评论情感分析方法,包括:
步骤S201:获取训练数据集;其中,所述训练数据集中至少包括利用预设句式模板以及预设情感词典生成的情感分类训练数据,所述预设句式模板包括比较型句式模板,所述预设情感词典包括预设网络词汇以及所述预设网络词汇的情感极性信息。
步骤S202:利用所述预设情感词典生成所述训练数据集中每个情感分类训练数据对应的第一padding特征。
其中,所述第一padding特征为利用第一特征值和/或第二特征值和/或第三特征值表示的特征向量;其中,所述第一特征值表示情感分类训练数据中对应位置的字符的情感极性为正向,所述第二特征值表示情感分类训练数据中对应位置的字符的情感极性为负向,所述第三特征值表示情感分类训练数据中对应位置的字符无情感极性或情感极性为中立;
步骤S203:将每个所述第一padding特征映射为对应的第一嵌入向量。
步骤S204:基于所述训练数据集中每个情感分类训练数据对应的指定评价对象信息生成每个情感分类训练数据对应的第二padding特征;
其中,所述第二padding特征为利用第四特征值和/或第五特征值表示的特征向量,并且,所述第四特征值表示情感分类训练数据中对应位置的字符所属的词为基于所述指定评价对象信息确定的指定对象,所述第五特征值表示情感分类训练数据中对应位置的字符不属于所述指定对象;
步骤S205:将每个所述第二padding特征映射为对应的第二嵌入向量。
步骤S206:将每个情感分类训练数据输入所述情感分析模型的token嵌入层、segment嵌入层、position嵌入层,得到每个情感分类训练数据对应的token嵌入向量、segment嵌入向量、position嵌入向量。
其中,token在中文NLP(即Natural Langunge Possns,自然语言处理)中为字,Segment为句子分段,position为token在句中的位置。
步骤S207:将每个情感分类训练数据对应的所述token嵌入向量、所述segment嵌入向量、所述position嵌入向量融合,得到每个情感分类训练数据对应的第一融合向量。
步骤S208:将所述第一融合向量进行归一化,得到归一化向量。
步骤S209:将所述归一化向量、所述第一嵌入向量、所述第二嵌入向量融合,得到第二融合向量。
步骤S210:利用所述第二融合向量对情感分析模型进行训练,得到训练后情感分析模型。
步骤S211:当获取到待分析音乐评论,则利用所述训练后情感分析模型确定所述待分析音乐评论对应的情感极性。
例如,参见图4所示,图4为本申请实施例公开的一种特征融合示意图。将情感分类训练数据输入情感分析模型的token嵌入层、segment嵌入层、position嵌入层,得到情感分类训练数据的token嵌入向量、segment嵌入向量、position嵌入向量,将token嵌入向量、segment嵌入向量、position嵌入向量融合,得到第一融合向量,将第一融合向量输入归一化层,得到归一化向量,第一padding特征输入字典嵌入层,得到第一嵌入向量,第二padding特征输入对象嵌入层,得到第二嵌入向量,其中,字典嵌入层为预设的用于将每个第一padding特征映射为对应的第一嵌入向量的嵌入层,对象嵌入层为预设的用于将每个第二padding特征映射为对应的第二嵌入向量的嵌入层,之后将每个情感分类训练数据对应的归一化向量、所述第一嵌入向量、所述第二嵌入向量融合,得到每个情感分类训练数据对应的第二融合向量。
需要指出的是,通过实验发现,所述第一嵌入向量、所述第二嵌入向量与BERT的token嵌入层、segment嵌入层、position嵌入层输出的嵌入向量之间的融合过程发生在token嵌入层、segment嵌入层、position嵌入层输出的嵌入向量的归一化之后效果最佳。其中,归一化可以采用normalize。
参见图5所示,本申请实施例公开了一种具体的音乐评论情感分析方法,包括:
步骤S301:获取训练数据集;其中,所述训练数据集中至少包括利用预设句式模板以及预设情感词典生成的情感分类训练数据,所述预设句式模板包括比较型句式模板,所述预设情感词典包括预设网络词汇以及所述预设网络词汇的情感极性信息。
步骤S302:利用所述预设情感词典生成所述训练数据集中每个情感分类训练数据对应的第一嵌入向量。
步骤S303:基于所述训练数据集中每个情感分类训练数据对应的指定评价对象信息生成每个情感分类训练数据对应的第二嵌入向量。
步骤S304:利用所述预设情感词典生成所述训练数据集中每个歌曲歌手评价类训练数据对应的第三嵌入向量。
步骤S305:基于所述训练数据集中每个歌曲歌手评价类训练数据对应的指定评价对象信息生成每个歌曲歌手评价类训练数据对应的第四嵌入向量。
其中,对于第三嵌入向量以及第四嵌入向量的具体生成过程,可以参考前述实施例公开的第一嵌入向量和第二嵌入向量的生成过程。
步骤S306:基于所述第一嵌入向量、所述第二嵌入向量、所述第三嵌入向量、所述第四嵌入向量对情感分析模型进行训练,并在训练过程中基于所述第一嵌入向量、所述第二嵌入向量确定出用于衡量情感极性分类损失的第一损失参数,以及基于所述第三嵌入向量、所述第四嵌入向量确定出用于衡量歌手歌曲评价分类损失的第二损失参数。
步骤S307:基于所述第一损失参数以及所述第二损失参数确定出相应的目标损失参数。
在一种具体的实施方式中,可以利用所述第一损失参数以及所述第一损失参数对应的第一预设权重系数、所述第二损失参数以及所述第二损失参数对应的第二预设权重系数进行加权计算,得到相应的目标损失参数。
也即,可以预先设定第一损失参数和第二损失参数的权重系数。
在另一种具体的实施方式中,可以利用所述第一损失参数以及所述第一损失参数对应的第一权重系数、所述第二损失参数以及所述第二损失参数对应的第二权重系数进行加权计算,得到相应的目标损失参数;其中,所述第一权重系数以及所述第二权重系数均为通过训练得到的权重系数。
也即,权重系数为可学习参数,具体可以通采用Uncertainty(即homoscedasticuncertainty,方差不确定性)、PC-gradient(即projecting conflicting gradients,对立映射梯度)等方法对计算第一损失参数和第二损失参数的损失函数以及梯度计算过程进行优化,使得目标损失参数收敛到最优点上。
步骤S308:当所述目标损失参数收敛,则将当前的所述情感分析模型确定为训练后情感分析模型。
也即,本申请实施例可以利用所述训练数据集中的歌曲歌手评价类训练数据以及情感分类训练数据对情感分析模型进行训练,使训练得到的情感分析模型具备歌曲歌手评价类筛选以及情感分类的能力。这样由于歌曲歌手评价类筛选以及情感分类存在相关性,均需要根据句子中的情感词进行判断,所以模型可以提供公共的特征抽取能力,一起训练相当于变向的数据增强,可以提升模型性能。
在具体的实施方式中,可以采用多任务训练方式,包括歌曲歌手评价类筛选训练任务和情感分类训练任务,通过层级共享,使得两个任务只需一次编码过程,相对于现有技术的分别训练,极大的提升了模型训练效率。
在具体的实施方式中,可以基于所述第一嵌入向量、所述第二嵌入向量、所述第三嵌入向量、所述第四嵌入向量对情感分析模型进行多任务训练,并在训练过程中基于所述第一嵌入向量、所述第二嵌入向量确定出情感分类训练任务对应的用于衡量情感极性分类损失的第一损失参数,以及基于所述第三嵌入向量、所述第四嵌入向量确定出歌曲歌手评价类筛选训练任务对应的用于衡量歌手歌曲评价分类损失的第二损失参数。
例如,参见图6所示,图6为本申请提供的一种具体的情感分析模型训练流程图。训练数据集包括歌手歌曲评价类训练数据以及情感分类训练数据,其中,歌手歌曲评价类训练数据全部为人工标注的训练数据,比如获取5000条歌手歌曲评价类训练数据,情感极性分类数据可以包括利用预设句式模板以及预设情感词典生成的情感分类训练数据以及人工标注的情感分类训练数据。图6中的情感分类基础训练数据即为人工标注的情感分类训练数据。利用预设情感词典和指定对象信息构建情感分类数据对应的第一嵌入向量、第二嵌入向量,歌手歌曲评价类训练数据对应的第三嵌入向量、第四嵌入向量,多任务共享BERT编码器层,确定歌曲歌手评价类筛选训练任务对应的第二损失参数,以及情感分类训练任务对应的第一损失参数,进而得到多任务损失即目标损失参数。
例如,参见图7所示,图7为本申请实施例公开的一种具体的情感分析模型结构示意图。将训练数据集中的每个训练数据输入情感分析模型的token嵌入层、segment嵌入层、position嵌入层,得到训练数据的token嵌入向量、segment嵌入向量、position嵌入向量,将token嵌入向量、segment嵌入向量、position嵌入向量融合,得到第一融合向量,将第一融合向量输入归一化层,得到归一化向量,将每个情感分类训练数据对应的第一padding特征输入字典嵌入层,得到第一嵌入向量,第二padding特征输入对象嵌入层,得到第二嵌入向量,以及将每个歌曲歌手评价类训练数据对应的第三padding特征输入字典嵌入层,得到第三嵌入向量,第四padding特征输入对象嵌入层,得到第四嵌入向量,其中,第三padding特征为利用所述预设情感词典生成的歌曲歌手评价类训练数据对应的padding特征,第四padding特征为利用每个歌曲歌手评价类训练数据以及歌曲歌手评价类训练数据对应的指定评价对象信息生成的padding特征,之后将每个情感分类训练数据对应的归一化向量、所述第一嵌入向量、所述第二嵌入向量融合,得到每个情感分类训练数据对应的第二融合向量,将每个歌曲歌手评价类训练数据对应的归一化向量、第三嵌入向量、第四嵌入向量融合,得到每个歌曲歌手评价类训练数据对应的第二融合向量,输入BERT层进行编码,选取BERT层2、BERT层7、BERT层12对应的输出进行后续处理,需要指出的是,不是每一层的信息都有用,选取BERT层2、BERT层7、BERT层12三层的输出信息经过实验,是效果最好的。BERT层2、BERT层7、BERT层12的输出的CLS嵌入向量以及对象嵌入向量进入情感分类门控层、CLS嵌入向量进入评价类筛选门控层,其中,CLS嵌入向量为CLS(句子开头)token对应的输出嵌入向量,对象嵌入向量为指定对象的词对应的输出嵌入向量平均池化后的嵌入表示。情感分类门控层和评价类筛选门控层分别为情感分类训练任务和歌曲歌手评价类筛选训练任务对应的门控层,用来控制指定的BERT层有多少信息将会流入到最终的句子表示中,门控层公式如下所示:
rt=σ(Wrxt+Urht-1+br)
zt=σ(Wzxt+Uzht-1+bz)
h′t=tanh(Whxt+Uh(rt⊙ht-1)+bh)
ht=zt⊙ht-1+(1-zt)⊙h′t
其中,xt表示当前BERT层的输出的嵌入向量(情感分类训练任务包括CLS嵌入向量和对象嵌入向量,歌曲歌手评价类筛选训练任务为CLS嵌入向量);ht为经过门控层筛选后的嵌入向量,在最后一层中作为某个特定任务的句子向量表示;σ表示sigmoid激活函数,⊙表示按位相乘操作。不同任务对应的参数W、U、b均不相同。关于门控层的具体实现可以参考现有技术,在此不再进行赘述。
在具体的实施方式中,情感分类任务和歌曲歌手评价类筛选任务对应的多任务损失即目标损失参数可以采用加权的交叉熵损失函数计算,两个任务的权值均为0.5,公式定义如下:
Multi Task Loss=0.5*Cross Entropy(歌曲歌手评价类筛选)+0.5*CrossEntropy(情感极性分类)
步骤S309:当获取到待分析音乐评论,则利用所述训练后情感分析模型确定所述待分析音乐评论对应的情感极性。
在具体的实施方式中,可以利用所述训练后情感分析模型确定所述待分析音乐评论的歌曲歌手评价类分类结果,以及情感极性分类结果,若所述歌曲歌手评价类分类结果为所述待分析音乐评论为歌曲歌手评价类,则将所述情感极性分类结果确定为所述待分析音乐评论对应的情感极性。
需要指出的是,音乐评论文本包涵极为丰富的主题类别,例如歌曲歌曲评价类、粉丝打call类、情感宣泄类等等,最终用于推荐、搜索等场景需要筛选出歌曲歌手评价类评论,得到相应的情感极性。可以理解的是,本申请实施例同时也解决了音乐评论中话题种类多带来的情感极性分类困难的问题。
参见表一所示,表一为多种分类方案的预测结果比对表。
表一
方案 | 歌曲歌手评价类筛选准确度 | 情感分类准确度 |
原始BERT分类 | 0.943 | 0.891 |
本申请非多任务训练 | 0.943 | 0.925 |
本申请中多任务训练 | 0.940 | 0.939 |
在实验过程中,将包括1000条数据的测试集分别输入基于原始BERT分类方案得到的训练后歌曲歌手评价类筛选模型以及训练后情感分析模型、基于本申请的非多任务训练方案分别训练得到的训练后歌曲歌手评价类筛选模型以及训练后情感分析模型(也即,利用情感分类训练数据构造对应的第一嵌入向量以及第二嵌入向量,并训练情感分析模型,得到训练后情感分析模型,利用歌手歌曲评价类训练数据对应的第三嵌入向量以及第四嵌入向量,并训练歌曲歌手评价类筛选模型,得到训练后歌曲歌手评价类筛选模型,两个模型分别训练)、基于本申请的多任务训练方案训练得到的训练后情感分析模型,得到各个模型的预测结果,计算各方案对应的歌曲歌手评价类筛选准确度以及情感分类准确度,其中,计算公式具体如下:
歌曲歌手评价类筛选准确度=(模型判断为评价类且真实标签为评价类的数据量+模型判断为非评价类且实标签为非评价类的数据量)/测试集数量;
情感分类准确度=(模型判为正向且真实标签为正向的数据量+模型判为负向且真实标签为负向的数据量+模型判为中立&真实标签为中立数据量)/测试集数量。
可见,虽然在歌曲歌手评价类筛选准确度上准确度略有下降,但是在情感分类上有较大提升,且采用多任务框架可以大大减少模型运行时间,提升预测效率。
下面,以某款音乐APP为例,对本申请的技术方案进行说明。
从这款音乐APP的后台存储中获取大量的用户评论数据,然后筛选歌曲歌手评价类数据进行人工标注,筛选情感分类数据进行人工标注,得到歌曲歌手评价类训练数据,以及情感分类训练数据,传输至这款音乐APP的后台服务器,后台服务器利用预设句式模板以及预设情感词典生成情感分类训练数据,所述预设句式模板包括比较型句式模板,所述预设情感词典包括预设网络词汇以及所述预设网络词汇的情感极性信息,由此,得到训练数据集。然后,利用所述预设情感词典生成所述训练数据集中每个情感分类训练数据对应的第一嵌入向量;基于所述训练数据集中每个情感分类训练数据对应的指定评价对象信息生成每个情感分类训练数据对应的第二嵌入向量,利用所述预设情感词典生成所述训练数据集中每个歌曲歌手评价类训练数据对应的第三嵌入向量,基于所述训练数据集中每个歌曲歌手评价类训练数据对应的指定评价对象信息生成每个歌曲歌手评价类训练数据对应的第四嵌入向量,基于所述第一嵌入向量、所述第二嵌入向量、所述第三嵌入向量、所述第四嵌入向量对情感分析模型进行训练,并在训练过程中基于所述第一嵌入向量、所述第二嵌入向量确定出用于衡量情感极性分类损失的第一损失参数,以及基于所述第三嵌入向量、所述第四嵌入向量确定出用于衡量歌手歌曲评价分类损失的第二损失参数;基于所述第一损失参数以及所述第二损失参数确定出相应的目标损失参数,当所述目标损失参数收敛,则将当前的所述情感分析模型确定为训练后情感分析模型。
在得到训练后情感分析模型之后,用户端获取用户输入的音乐评论,作为待分析音乐评论传输给后台服务器,后台服务器在获取到待分析音乐评论时,利用所述训练后情感分析模型确定所述待分析音乐评论对应的情感极性。并基于歌手或歌曲的音乐评论的情感极性,进行歌手、歌曲排序,向用户端推荐排序靠前的歌单,或者基于用户的音乐评论的情感极性,向用户端推荐个性化的歌单。
参见图8所示,本申请实施例公开了一种音乐评论情感分析装置,包括:
训练数据集获取模块11,用于获取训练数据集;其中,所述训练数据集中至少包括利用预设句式模板以及预设情感词典生成的情感分类训练数据,所述预设句式模板包括比较型句式模板,所述预设情感词典包括预设网络词汇以及所述预设网络词汇的情感极性信息;
第一嵌入向量确定模块12,用于利用所述预设情感词典生成所述训练数据集中每个情感分类训练数据对应的第一嵌入向量;
第二嵌入向量确定模块13,用于基于所述训练数据集中每个情感分类训练数据对应的指定评价对象信息生成每个情感分类训练数据对应的第二嵌入向量;
情感分析模型训练模块14,用于基于所述第一嵌入向量、所述第二嵌入向量对情感分析模型进行训练,得到训练后情感分析模型;
评论情感极性确定模块15,用于当获取到待分析音乐评论,则利用所述训练后情感分析模型确定所述待分析音乐评论对应的情感极性。
可见,本申请实施例先获取训练数据集;其中,所述训练数据集中至少包括利用预设句式模板以及预设情感词典生成的情感分类训练数据,所述预设句式模板包括比较型句式模板,所述预设情感词典包括预设网络词汇以及所述预设网络词汇的情感极性信息,之后利用所述预设情感词典生成所述训练数据集中每个情感分类训练数据对应的第一嵌入向量,基于所述训练数据集中每个情感分类训练数据对应的指定评价对象信息生成每个情感分类训练数据对应的第二嵌入向量,然后基于所述第一嵌入向量、所述第二嵌入向量对情感分析模型进行训练,得到训练后情感分析模型,当获取到待分析音乐评论,则利用所述训练后情感分析模型确定所述待分析音乐评论对应的情感极性。也即,本申请利用比较型句式模板生成情感分类训练数据,并利用预设情感词典生成情感分类训练数据的第一嵌入向量,基于指定评价对象信息生成情感分类训练数据的第二嵌入向量,这样,利用词嵌入的方法,融入预设网络词汇,利用比较型句式模板生成比较型句式的情感分类训练数据,并通过指定评价对象信息生成对应的嵌入向量,使训练得到的情感分析模型具备识别网络词汇以及处理比较型句式的能力,能够提升情感分析模型的性能,从而提升音乐评论情感分析的准确度。
其中,第一嵌入向量确定模块12,具体包括:
第一padding特征生成子模块,用于利用所述预设情感词典生成所述训练数据集中每个情感分类训练数据对应的第一padding特征;其中,所述第一padding特征为利用第一特征值和/或第二特征值和/或第三特征值表示的特征向量;其中,所述第一特征值表示情感分类训练数据中对应位置的字符的情感极性为正向,所述第二特征值表示情感分类训练数据中对应位置的字符的情感极性为负向,所述第三特征值表示情感分类训练数据中对应位置的字符无情感极性或情感极性为中立;
第一嵌入向量映射子模块,用于将每个所述第一padding特征映射为对应的第一嵌入向量。
第二嵌入向量确定模块13,具体包括:
第二padding特征生成子模块,用于基于所述训练数据集中每个情感分类训练数据对应的指定评价对象信息生成每个情感分类训练数据对应的第二padding特征;其中,所述第二padding特征为利用第四特征值和/或第五特征值表示的特征向量,并且,所述第四特征值表示情感分类训练数据中对应位置的字符所属的词为基于所述指定评价对象信息确定的指定对象,所述第五特征值表示情感分类训练数据中对应位置的字符不属于所述指定对象;
第二嵌入向量映射子模块,用于将每个所述第二padding特征映射为对应的第二嵌入向量。
在一种具体的实施方式中,第一padding特征生成子模块,具体用于:
若在所述预设情感词典中查找到所述训练数据集中每个情感分类训练数据中的词,且该词的情感极性为正向,则将该词的每个字符在所述第一padding特征中的相应位置直接利用所述第一特征值表示;
若在所述预设情感词典中查找到所述训练数据集中每个情感分类训练数据中的词,且该词的情感极性为负向,则将该词的每个字符在所述第一padding特征中的相应位置直接利用所述第二特征值表示;
若在所述预设情感词典中查找不到所述训练数据集中每个情感分类训练数据中的词,则将该词的每个字符在所述第一padding特征中的相应位置利用所述第三特征值表示。
在另一种具体的实施方式中,第一padding特征生成子模块,具体用于:
若在所述预设情感词典中查找到所述训练数据集中每个情感分类训练数据中的词,且该词的情感极性为正向,则利用预设概率值确定该词的每个字符在所述第一padding特征中的相应位置利用所述第一特征值或所述第三特征值表示;
若在所述预设情感词典中查找到所述训练数据集中每个情感分类训练数据中的词,且该词的情感极性为负向,则利用所述预设概率值确定该词的每个字符在所述第一padding特征中的相应位置利用所述第二特征值或所述第三特征值表示;
若在所述预设情感词典中查找不到所述训练数据集中每个情感分类训练数据中的词,则将该词的每个字符在所述第一padding特征中的相应位置利用所述第三特征值表示。
情感分析模型训练模块14,具体用于:
将每个情感分类训练数据输入所述情感分析模型的token嵌入层、segment嵌入层、position嵌入层,得到每个情感分类训练数据对应的token嵌入向量、segment嵌入向量、position嵌入向量;
将每个情感分类训练数据对应的所述token嵌入向量、所述segment嵌入向量、所述position嵌入向量融合,得到每个情感分类训练数据对应的第一融合向量;
将所述第一融合向量进行归一化,得到归一化向量;
将所述归一化向量、所述第一嵌入向量、所述第二嵌入向量融合,得到第二融合向量;
基于所述第二融合向量对情感分析模型进行训练,得到训练后情感分析模型。
情感分析模型训练模块14,具体包括:
目标损失参数确定子模块,用于基于所述第一嵌入向量、所述第二嵌入向量对情感分析模型进行训练,并在训练过程中确定出相应的目标损失参数;
训练后情感分析模型确定模块,用于当所述目标损失参数收敛,则将当前的所述情感分析模型确定为训练后情感分析模型。
在一种具体的实施方式中,目标损失参数确定子模块用于基于所述第一嵌入向量、所述第二嵌入向量对情感分析模型进行训练,并在训练过程中确定出用于衡量情感极性分类损失的损失参数,将该损失参数确定为目标损失参数。
在一种具体的实施方式中,目标损失参数确定子模块用于:利用所述预设情感词典生成所述训练数据集中每个歌曲歌手评价类训练数据对应的第三嵌入向量;基于所述训练数据集中每个歌曲歌手评价类训练数据对应的指定评价对象信息生成每个歌曲歌手评价类训练数据对应的第四嵌入向量;基于所述第一嵌入向量、所述第二嵌入向量、所述第三嵌入向量、所述第四嵌入向量对情感分析模型进行训练,并在训练过程中基于所述第一嵌入向量、所述第二嵌入向量确定出用于衡量情感极性分类损失的第一损失参数,以及基于所述第三嵌入向量、所述第四嵌入向量确定出用于衡量歌手歌曲评价分类损失的第二损失参数;基于所述第一损失参数以及所述第二损失参数确定出相应的目标损失参数。
在一些实施例中,目标损失参数确定子模块,用于利用所述第一损失参数以及所述第一损失参数对应的第一预设权重系数、所述第二损失参数以及所述第二损失参数对应的第二预设权重系数进行加权计算,得到相应的目标损失参数。
在一些实施例中,目标损失参数确定子模块,用于利用所述第一损失参数以及所述第一损失参数对应的第一权重系数、所述第二损失参数以及所述第二损失参数对应的第二权重系数进行加权计算,得到相应的目标损失参数;其中,所述第一权重系数以及所述第二权重系数均为通过训练得到的权重系数。
评论情感极性确定模块15,用于利用所述训练后情感分析模型确定所述待分析音乐评论的歌曲歌手评价类分类结果,以及情感极性分类结果,若所述歌曲歌手评价类分类结果为所述待分析音乐评论为歌曲歌手评价类,则将所述情感极性分类结果确定为所述待分析音乐评论对应的情感极性。
进一步的,本申请实施例还提供了一种电子设备。图9是根据一示例性实施例示出的电子设备20结构图,图中的内容不能被认为是对本申请的使用范围的任何限制。
图9为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的音乐评论情感分析方法中的相关步骤。另外,本实施例中的电子设备20具体可以为服务器。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222及训练数据223等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,以实现处理器21对存储器22中训练数据223的运算与处理,其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的音乐评论情感分析方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。
进一步的,本申请实施例还公开了一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器加载并执行时,实现前述任一实施例公开的音乐评论情感分析方法步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种音乐评论情感分析方法、设备及介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (13)
1.一种音乐评论情感分析方法,其特征在于,包括:
获取训练数据集;其中,所述训练数据集中至少包括利用预设句式模板以及预设情感词典生成的情感分类训练数据,所述预设句式模板包括比较型句式模板,所述预设情感词典包括预设网络词汇以及所述预设网络词汇的情感极性信息;
利用所述预设情感词典生成所述训练数据集中每个情感分类训练数据对应的第一嵌入向量;
基于所述训练数据集中每个情感分类训练数据对应的指定评价对象信息生成每个情感分类训练数据对应的第二嵌入向量;
基于所述第一嵌入向量、所述第二嵌入向量对情感分析模型进行训练,得到训练后情感分析模型;
当获取到待分析音乐评论,则利用所述训练后情感分析模型确定所述待分析音乐评论对应的情感极性。
2.根据权利要求1所述的音乐评论情感分析方法,其特征在于,所述利用所述预设情感词典生成所述训练数据集中每个情感分类训练数据对应的第一嵌入向量;基于所述训练数据集中每个情感分类训练数据对应的指定评价对象信息生成每个情感分类训练数据对应的第二嵌入向量,包括:
利用所述预设情感词典生成所述训练数据集中每个情感分类训练数据对应的第一padding特征;其中,所述第一padding特征为利用第一特征值和/或第二特征值和/或第三特征值表示的特征向量;其中,所述第一特征值表示情感分类训练数据中对应位置的字符的情感极性为正向,所述第二特征值表示情感分类训练数据中对应位置的字符的情感极性为负向,所述第三特征值表示情感分类训练数据中对应位置的字符无情感极性或情感极性为中立;
将每个所述第一padding特征映射为对应的第一嵌入向量;
基于所述训练数据集中每个情感分类训练数据对应的指定评价对象信息生成每个情感分类训练数据对应的第二padding特征;其中,所述第二padding特征为利用第四特征值和/或第五特征值表示的特征向量,并且,所述第四特征值表示情感分类训练数据中对应位置的字符所属的词为基于所述指定评价对象信息确定的指定对象,所述第五特征值表示情感分类训练数据中对应位置的字符不属于所述指定对象;
将每个所述第二padding特征映射为对应的第二嵌入向量。
3.根据权利要求2所述的音乐评论情感分析方法,其特征在于,所述利用所述预设情感词典生成所述训练数据集中每个情感分类训练数据对应的第一padding特征,包括:
若在所述预设情感词典中查找到所述训练数据集中每个情感分类训练数据中的词,且该词的情感极性为正向,则将该词的每个字符在所述第一padding特征中的相应位置直接利用所述第一特征值表示;
若在所述预设情感词典中查找到所述训练数据集中每个情感分类训练数据中的词,且该词的情感极性为负向,则将该词的每个字符在所述第一padding特征中的相应位置直接利用所述第二特征值表示;
若在所述预设情感词典中查找不到所述训练数据集中每个情感分类训练数据中的词,则将该词的每个字符在所述第一padding特征中的相应位置利用所述第三特征值表示。
4.根据权利要求2所述的音乐评论情感分析方法,其特征在于,所述利用所述预设情感词典生成所述训练数据集中每个情感分类训练数据对应的第一padding特征,包括:
若在所述预设情感词典中查找到所述训练数据集中每个情感分类训练数据中的词,且该词的情感极性为正向,则利用预设概率值确定该词的每个字符在所述第一padding特征中的相应位置利用所述第一特征值或所述第三特征值表示;
若在所述预设情感词典中查找到所述训练数据集中每个情感分类训练数据中的词,且该词的情感极性为负向,则利用所述预设概率值确定该词的每个字符在所述第一padding特征中的相应位置利用所述第二特征值或所述第三特征值表示;
若在所述预设情感词典中查找不到所述训练数据集中每个情感分类训练数据中的词,则将该词的每个字符在所述第一padding特征中的相应位置利用所述第三特征值表示。
5.根据权利要求1所述的音乐评论情感分析方法,其特征在于,所述基于所述第一嵌入向量、所述第二嵌入向量对情感分析模型进行训练,得到训练后情感分析模型,包括:
将每个情感分类训练数据输入所述情感分析模型的token嵌入层、segment嵌入层、position嵌入层,得到每个情感分类训练数据对应的token嵌入向量、segment嵌入向量、position嵌入向量;
将每个情感分类训练数据对应的所述token嵌入向量、所述segment嵌入向量、所述position嵌入向量融合,得到每个情感分类训练数据对应的第一融合向量;
将所述第一融合向量进行归一化,得到归一化向量;
将所述归一化向量、所述第一嵌入向量、所述第二嵌入向量融合,得到第二融合向量;
基于所述第二融合向量对情感分析模型进行训练,得到训练后情感分析模型。
6.根据权利要求1至5任一项所述音乐评论情感分析方法,其特征在于,所述基于所述第一嵌入向量、所述第二嵌入向量对情感分析模型进行训练,得到训练后情感分析模型,包括:
基于所述第一嵌入向量、所述第二嵌入向量对情感分析模型进行训练,并在训练过程中确定出相应的目标损失参数;
当所述目标损失参数收敛,则将当前的所述情感分析模型确定为训练后情感分析模型。
7.根据权利要求6所述的音乐评论情感分析方法,其特征在于,所述基于所述第一嵌入向量、所述第二嵌入向量对情感分析模型进行训练,并在训练过程中确定出相应的目标损失参数,包括:
基于所述第一嵌入向量、所述第二嵌入向量对情感分析模型进行训练,并在训练过程中确定出用于衡量情感极性分类损失的损失参数,将该损失参数确定为目标损失参数。
8.根据权利要求6所述音乐评论情感分析方法,其特征在于,所述基于所述第一嵌入向量、所述第二嵌入向量对情感分析模型进行训练,并在训练过程中确定出相应的目标损失参数,包括:
利用所述预设情感词典生成所述训练数据集中每个歌曲歌手评价类训练数据对应的第三嵌入向量;
基于所述训练数据集中每个歌曲歌手评价类训练数据对应的指定评价对象信息生成每个歌曲歌手评价类训练数据对应的第四嵌入向量;
基于所述第一嵌入向量、所述第二嵌入向量、所述第三嵌入向量、所述第四嵌入向量对情感分析模型进行训练,并在训练过程中基于所述第一嵌入向量、所述第二嵌入向量确定出用于衡量情感极性分类损失的第一损失参数,以及基于所述第三嵌入向量、所述第四嵌入向量确定出用于衡量歌手歌曲评价分类损失的第二损失参数;
基于所述第一损失参数以及所述第二损失参数确定出相应的目标损失参数。
9.根据权利要求8所述的音乐评论情感分析方法,其特征在于,所述基于所述第一损失参数以及所述第二损失参数确定出相应的目标损失参数,包括:
利用所述第一损失参数以及所述第一损失参数对应的第一预设权重系数、所述第二损失参数以及所述第二损失参数对应的第二预设权重系数进行加权计算,得到相应的目标损失参数。
10.根据权利要求8所述音乐评论情感分析方法,其特征在于,所述基于所述第一损失参数以及所述第二损失参数确定出相应的目标损失参数,包括:
利用所述第一损失参数以及所述第一损失参数对应的第一权重系数、所述第二损失参数以及所述第二损失参数对应的第二权重系数进行加权计算,得到相应的目标损失参数;其中,所述第一权重系数以及所述第二权重系数均为通过训练得到的权重系数。
11.根据权利要求8所述的音乐评论情感分析方法,其特征在于,所述利用所述训练后情感分析模型确定所述待分析音乐评论对应的情感极性,包括:
利用所述训练后情感分析模型确定所述待分析音乐评论的歌曲歌手评价类分类结果,以及情感极性分类结果,若所述歌曲歌手评价类分类结果为所述待分析音乐评论为歌曲歌手评价类,则将所述情感极性分类结果确定为所述待分析音乐评论对应的情感极性。
12.一种电子设备,其特征在于,包括处理器和存储器;其中,
所述存储器,用于保存计算机程序;
所述处理器,用于执行所述计算机程序以实现如权利要求1至11任一项所述的音乐评论情感分析方法。
13.一种计算机可读存储介质,其特征在于,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至11任一项所述的音乐评论情感分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110571946.3A CN113505582A (zh) | 2021-05-25 | 2021-05-25 | 一种音乐评论情感分析方法、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110571946.3A CN113505582A (zh) | 2021-05-25 | 2021-05-25 | 一种音乐评论情感分析方法、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113505582A true CN113505582A (zh) | 2021-10-15 |
Family
ID=78009413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110571946.3A Pending CN113505582A (zh) | 2021-05-25 | 2021-05-25 | 一种音乐评论情感分析方法、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113505582A (zh) |
-
2021
- 2021-05-25 CN CN202110571946.3A patent/CN113505582A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108536679B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
CN110287479B (zh) | 命名实体识别方法、电子装置及存储介质 | |
CN113255755B (zh) | 一种基于异质融合网络的多模态情感分类方法 | |
CN111897941B (zh) | 对话生成方法、网络训练方法、装置、存储介质及设备 | |
KR102288249B1 (ko) | 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체 | |
CN110309514A (zh) | 一种语义识别方法及装置 | |
CN110990543A (zh) | 智能对话的生成方法、装置、计算机设备及计算机存储介质 | |
CN108228576B (zh) | 文本翻译方法及装置 | |
CN112989212B (zh) | 媒体内容推荐方法、装置和设备及计算机存储介质 | |
CN110851650B (zh) | 一种评论输出方法、装置、以及计算机存储介质 | |
CN112100375A (zh) | 文本信息生成方法、装置、存储介质及设备 | |
CN117149989A (zh) | 大语言模型训练方法、文本处理方法及装置 | |
CN111274412A (zh) | 信息提取方法、信息提取模型训练方法、装置及存储介质 | |
CN113392640A (zh) | 一种标题确定方法、装置、设备及存储介质 | |
CN113486174B (zh) | 模型训练、阅读理解方法、装置、电子设备及存储介质 | |
CN111767720B (zh) | 一种标题生成方法、计算机及可读存储介质 | |
CN117216617A (zh) | 文本分类模型训练方法、装置、计算机设备和存储介质 | |
CN115186085A (zh) | 回复内容处理方法以及媒体内容互动内容的交互方法 | |
CN112052320B (zh) | 一种信息处理方法、装置及计算机可读存储介质 | |
CN114239565A (zh) | 一种基于深度学习的情绪原因识别方法及系统 | |
CN114416941A (zh) | 融合知识图谱的对话知识点确定模型的生成方法及装置 | |
CN113505582A (zh) | 一种音乐评论情感分析方法、设备及介质 | |
CN114330285A (zh) | 语料处理方法、装置、电子设备及计算机可读存储介质 | |
CN113763934A (zh) | 音频识别模型的训练方法、装置和存储介质及电子设备 | |
CN115080731A (zh) | 评语语段生成方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |