CN108205542A

CN108205542A - 一种歌曲评论的分析方法和系统

Info

Publication number: CN108205542A
Application number: CN201611170048.2A
Authority: CN
Inventors: 高玉敏
Original assignee: Beijing Kuwo Technology Co Ltd
Current assignee: Beijing Kuwo Technology Co Ltd
Priority date: 2016-12-16
Filing date: 2016-12-16
Publication date: 2018-06-26

Abstract

本发明涉及一种歌曲评论的分析方法和系统。所述方法包括：选取歌曲评论的样本，并对样本进行相应的标注，以获取到标注后的样本；按照预定规则将标注后的样本分为训练集样本和测试集样本；对训练集样本以及测试集样本进行分词处理，并通过训练模型对处理过的文本进行训练，以得到相应的文本的向量；通过训练分类模型对训练集样本中的文本向量进行训练，以得到优化的训练分类模型，以及通过优化的训练分类模型对测试集样本中的歌曲评论进行分析。本发明实施例中的优化的训练分类模型，不仅解决了目前的歌曲评论的分析方法的上下文信息缺失的问题，以及数据集规模过大的问题，进一步地，大大地提高了歌曲评论分析的准确率。

Description

一种歌曲评论的分析方法和系统

技术领域

本发明涉及音频技术领域，具体而言，本发明涉及一种歌曲评论的分析方法和系统。

背景技术

目前，常见的歌曲评论的分析方法是一种常见的自然语言处理方法。现有的方法的思路为：提取文本情感内容为目标，并对提取出来的目标进行分类。

目前，常用的方法为：通过词袋模型来对歌曲评论进行分析。具体的做法为：将每一个歌曲评论的文本当做一个1XN的向量，其中，N为作为歌曲评论的文本词汇的向量。定义的规则具体为：作为歌曲评论的文本词汇的向量的每一列为一个单词，值为该单词在作为歌曲评论的文本中出现的频数。进一步地，通过机器学习分类模型训练相应的数据，以预测针对当前歌曲的评论的预测感情。进一步地，预测针对当前歌曲的评论是积极的，还是消极的。

现有的，通过词袋模型对歌曲评论所作的情感分析的方法的缺点之一，忽略了上下文信息。例如，若针对当前歌曲的评论为这首歌曲不是很好听，则通过词袋模型对该条评论容易做出该条评论的情感为积极的错误判断。

其次，通过词袋模型对歌曲评论所作的情感分析的方法的缺点还有，在数据集规模比较大的情况下，向量维度过大，使得对歌曲评论的分析过程过于复杂，且耗时，浪费了宝贵的内存资源。

发明内容

本发明实施例在于提供一种歌曲评论的分析方法和系统，通过优化的训练分类模型，不仅解决了目前的歌曲评论的分析方法的上下文信息缺失的问题，以及数据集规模过大的问题，进一步地，大大地提高了歌曲评论分析的准确率。

第一方面，本发明实施例提供了一种歌曲评论的分析方法，所述方法包括：

选取歌曲评论的样本，并对所述样本进行相应的标注，以获取到标注后的样本；

按照预定规则将所述标注后的样本分为训练集样本和测试集样本；

对所述训练集样本以及所述测试集样本进行分词处理，并通过训练模型对处理过的文本进行训练，以得到相应的文本的向量；

通过训练分类模型对训练集样本中的文本向量进行训练，以得到优化的训练分类模型，以及

通过优化的训练分类模型对测试集样本中的歌曲评论进行分析。

优选的，采用简易中文分词系统对所述训练集样本以及所述测试集样本进行分词处理。

优选的，所述方法还包括：

将所述训练集样本以及所述测试集样本中的停用词或者标点符号进行过滤处理。

优选的，在得到优化的训练分类模型之后，所述方法还包括：

通过测试集样本中的文本向量评估优化的训练分类模型的准确度。

优选的，所述方法还包括：

将选取的当前歌曲评论的样本标注为积极的歌曲评论的样本，或者，将选取的当前歌曲评论的样本标注为消极的歌曲评论的样本。

优选的，通过doc2vec训练模型对处理过的文本进行训练，以得到相应的文本的向量，其中，所述相应的文本的向量具体包括如下至少一种向量：

当前待预测的单词在给定的上下文中的向量，以及当前待预测的单词所在段落的向量。

优选的，根据当前待预测的单词在给定的上下文中的向量，以及当前待预测的单词所在段落的向量，给出当前待预测的单词出现的概率。

优选的，若当前待预测的单词所在段落的向量ID保持不变，则相应的段落向量维持不变。

优选的，通过GBDT训练分类模型对训练集样本中的文本向量进行训练，以得到优化的训练分类模型。

第二方面，本发明实施例提供了一种歌曲评论的分析系统，所述系统包括：

标注样本获取单元，选取歌曲评论的样本，并对所述样本进行相应的标注，以获取到标注后的样本；

样本分类单元，按照预定规则将所述标注后的样本分为训练集样本和测试集样本；

文本向量获取单元，对所述训练集样本以及所述测试集样本进行分词处理，并通过训练模型对处理过的文本进行训练，以得到相应的文本的向量；

模型获取及评论分析单元，通过训练分类模型对训练集样本中的文本向量进行训练，以得到优化的训练分类模型，以及

本发明实施例提供了一种歌曲评论的分析方法和系统，其中，所述方法包括：选取歌曲评论的样本，并对样本进行相应的标注，以获取到标注后的样本；按照预定规则将标注后的样本分为训练集样本和测试集样本；对训练集样本以及测试集样本进行分词处理，并通过训练模型对处理过的文本进行训练，以得到相应的文本的向量；通过训练分类模型对训练集样本中的文本向量进行训练，以得到优化的训练分类模型，以及通过优化的训练分类模型对测试集样本中的歌曲评论进行分析。本发明实施例中的优化的训练分类模型，不仅解决了目前的歌曲评论的分析方法的上下文信息缺失的问题，以及数据集规模过大的问题，进一步地，大大地提高了歌曲评论分析的准确率。

附图说明

图1是本发明实施例提供的一种歌曲评论的分析方法的流程图；

图2是本发明实施例提供的一种歌曲评论的分析系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本发明实施例的理解，下面将结合附图以具体实施例做进一步的解释说明。

本发明所提供的技术方案中，通过选取歌曲评论的样本，并对样本进行相应的标注，以获取到标注后的样本；按照预定规则将标注后的样本分为训练集样本和测试集样本；对训练集样本以及测试集样本进行分词处理，并通过训练模型对处理过的文本进行训练，以得到相应的文本的向量；通过训练分类模型对训练集样本中的文本向量进行训练，以得到优化的训练分类模型，以及通过优化的训练分类模型对测试集样本中的歌曲评论进行分析。本发明实施例中的优化的训练分类模型，不仅解决了目前的歌曲评论的分析方法的上下文信息缺失的问题，以及数据集规模过大的问题，进一步地，大大地提高了歌曲评论分析的准确率。

下面结合附图详细说明本发明的技术方案。

本发明实施例提供的一种歌曲评论的分析方法的流程图，如图1所示，一种歌曲评论的分析方法包括如下步骤：

S101：选取歌曲评论的样本，并对样本进行相应的标注，以获取到标注后的样本。

具体而言，将选取的当前歌曲评论的样本标注为积极的歌曲评论的样本，或者，将选取的当前歌曲评论的样本标注为消极的歌曲评论的样本。

S102：按照预定规则将标注后的样本分为训练集样本和测试集样本。

在本发明的一个具体实施例中，预定规则具体为：将标注后的样本中的7份规定为训练集样本，标注后的样本中的3份规定为测试集样本。

S103：对训练集样本以及测试集样本进行分词处理，并通过训练模型对处理过的文本进行训练，以得到相应的文本的向量。

具体而言，采用简易中文分词系统对训练集样本以及测试集样本进行分词处理。

在本发明的具体实施例中，采用的分词处理具体为SCWS(Simple Chinese WordSegmentation，简易中文分词系统)。该简易中文分词系统是一套基于词频词典的机械式中文分词引擎，它能将一整段的中文文本基本正确地切分成词。

进一步地，在本发明的具体实施例中，为了使得得到的优化的训练分类模型更加准确，本发明具体实施例所提供的歌曲评论的分析方法还包括：将训练集样本以及测试集样本中的停用词或者标点符号进行过滤处理。

进一步地，通过doc2vec训练模型对处理过的文本进行训练，以得到相应的文本的向量，其中，相应的文本的向量具体包括如下至少一种向量：

在本发明的具体实施例中，doc2vec训练模型的算法思想为：对词向量进行平均处理，仍然忽略了单词之间的排列顺序对情感分析的影响。不同于word2vec只是基于词的维度进行语义分析的，而并不具有上下文的语义分析的能力。

在本发明的具体实施例中，根据当前待预测的单词在给定的上下文中的向量，以及当前待预测的单词所在段落的向量，给出当前待预测的单词出现的概率。

在本发明的具体实施例中，若当前待预测的单词所在段落的向量ID保持不变，则相应的段落向量维持不变。

具体而言，在一个句子或者文档的训练过程中，段落ID保持不变，则共享着同一个段落向量。

S104：通过训练分类模型对训练集样本中的文本向量进行训练，以得到优化的训练分类模型，以及通过优化的训练分类模型对测试集样本中的歌曲评论进行分析。

具体而言，通过GBDT训练分类模型对训练集样本中的文本向量进行训练，以得到优化的训练分类模型。

在本发明的具体实施例中，GBDT(Gradient Boosting Decision Tree)是一种迭代的决策树算法，在此不再赘述。

进一步地，在得到优化的训练分类模型之后，所述方法还包括：

经过验证，本发明所提供的技术方案中的优化的训练分类模型的准确度达到86％，远远地高于现有的训练分类模型。

综上所述，本发明实施例提供的一种歌曲评论的分析方法，通过选取歌曲评论的样本，并对样本进行相应的标注，以获取到标注后的样本；按照预定规则将标注后的样本分为训练集样本和测试集样本；对训练集样本以及测试集样本进行分词处理，并通过训练模型对处理过的文本进行训练，以得到相应的文本的向量；通过训练分类模型对训练集样本中的文本向量进行训练，以得到优化的训练分类模型，以及通过优化的训练分类模型对测试集样本中的歌曲评论进行分析。本发明实施例中的优化的训练分类模型，不仅解决了目前的歌曲评论的分析方法的上下文信息缺失的问题，以及数据集规模过大的问题，进一步地，大大地提高了歌曲评论分析的准确率。

如图2所示，本发明实施例所提供的一种歌曲评论的分析系统，包括：标注样本获取单元201、样本分类单元202、文本向量获取单元203和模型获取及评论分析单元204。

具体而言，标注样本获取单元，选取歌曲评论的样本，并对样本进行相应的标注，以获取到标注后的样本。

进一步地，标注样本获取单元具体用于：将选取的当前歌曲评论的样本标注为积极的歌曲评论的样本，或者，将选取的当前歌曲评论的样本标注为消极的歌曲评论的样本。

样本分类单元，按照预定规则将标注后的样本分为训练集样本和测试集样本。

文本向量获取单元，对训练集样本以及测试集样本进行分词处理，并通过训练模型对处理过的文本进行训练，以得到相应的文本的向量。

进一步地，文本向量获取单元具体用于：采用简易中文分词系统对训练集样本以及测试集样本进行分词处理。

进一步地，文本向量获取单元具体还用于：将训练集样本以及测试集样本中的停用词或者标点符号进行过滤处理。

进一步地，文本向量获取单元具体还用于：通过doc2vec训练模型对处理过的文本进行训练，以得到相应的文本的向量，其中，相应的文本的向量具体包括如下至少一种向量：当前待预测的单词在给定的上下文中的向量，以及当前待预测的单词所在段落的向量。

进一步地，文本向量获取单元具体还用于：根据当前待预测的单词在给定的上下文中的向量，以及当前待预测的单词所在段落的向量，给出当前待预测的单词出现的概率。其中，若当前待预测的单词所在段落的向量ID保持不变，则相应的段落向量维持不变。

模型获取及评论分析单元，通过训练分类模型对训练集样本中的文本向量进行训练，以得到优化的训练分类模型，以及通过优化的训练分类模型对测试集样本中的歌曲评论进行分析。

进一步地，模型获取及评论分析单元还具体用于：通过GBDT训练分类模型对训练集样本中的文本向量进行训练，以得到优化的训练分类模型。

进一步地，模型获取及评论分析单元还具体用于：在得到优化的训练分类模型之后，通过测试集样本中的文本向量评估优化的训练分类模型的准确度。

本发明的技术方案中，通过选取歌曲评论的样本，并对样本进行相应的标注，以获取到标注后的样本；按照预定规则将标注后的样本分为训练集样本和测试集样本；对训练集样本以及测试集样本进行分词处理，并通过训练模型对处理过的文本进行训练，以得到相应的文本的向量；通过训练分类模型对训练集样本中的文本向量进行训练，以得到优化的训练分类模型，以及通过优化的训练分类模型对测试集样本中的歌曲评论进行分析。本发明实施例中的优化的训练分类模型，不仅解决了目前的歌曲评论的分析方法的上下文信息缺失的问题，以及数据集规模过大的问题，进一步地，大大地提高了歌曲评论分析的准确率。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种歌曲评论的分析方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，采用简易中文分词系统对所述训练集样本以及所述测试集样本进行分词处理。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，在得到优化的训练分类模型之后，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，通过doc2vec训练模型对处理过的文本进行训练，以得到相应的文本的向量，其中，所述相应的文本的向量具体包括如下至少一种向量：

7.根据权利要求6所述的方法，其特征在于，根据当前待预测的单词在给定的上下文中的向量，以及当前待预测的单词所在段落的向量，给出当前待预测的单词出现的概率。

8.根据权利要求6所述的方法，其特征在于，若当前待预测的单词所在段落的向量ID保持不变，则相应的段落向量维持不变。

9.根据权利要求1所述的方法，其特征在于，通过GBDT训练分类模型对训练集样本中的文本向量进行训练，以得到优化的训练分类模型。

10.一种歌曲评论的分析系统，其特征在于，包括：