CN108205542A - 一种歌曲评论的分析方法和系统 - Google Patents

一种歌曲评论的分析方法和系统 Download PDF

Info

Publication number
CN108205542A
CN108205542A CN201611170048.2A CN201611170048A CN108205542A CN 108205542 A CN108205542 A CN 108205542A CN 201611170048 A CN201611170048 A CN 201611170048A CN 108205542 A CN108205542 A CN 108205542A
Authority
CN
China
Prior art keywords
sample
vector
song
set sample
comment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611170048.2A
Other languages
English (en)
Inventor
高玉敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kuwo Technology Co Ltd
Original Assignee
Beijing Kuwo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kuwo Technology Co Ltd filed Critical Beijing Kuwo Technology Co Ltd
Priority to CN201611170048.2A priority Critical patent/CN108205542A/zh
Publication of CN108205542A publication Critical patent/CN108205542A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种歌曲评论的分析方法和系统。所述方法包括:选取歌曲评论的样本,并对样本进行相应的标注,以获取到标注后的样本;按照预定规则将标注后的样本分为训练集样本和测试集样本;对训练集样本以及测试集样本进行分词处理,并通过训练模型对处理过的文本进行训练,以得到相应的文本的向量;通过训练分类模型对训练集样本中的文本向量进行训练,以得到优化的训练分类模型,以及通过优化的训练分类模型对测试集样本中的歌曲评论进行分析。本发明实施例中的优化的训练分类模型,不仅解决了目前的歌曲评论的分析方法的上下文信息缺失的问题,以及数据集规模过大的问题,进一步地,大大地提高了歌曲评论分析的准确率。

Description

一种歌曲评论的分析方法和系统
技术领域
本发明涉及音频技术领域,具体而言,本发明涉及一种歌曲评论的分析方法和系统。
背景技术
目前,常见的歌曲评论的分析方法是一种常见的自然语言处理方法。现有的方法的思路为:提取文本情感内容为目标,并对提取出来的目标进行分类。
目前,常用的方法为:通过词袋模型来对歌曲评论进行分析。具体的做法为:将每一个歌曲评论的文本当做一个1XN的向量,其中,N为作为歌曲评论的文本词汇的向量。定义的规则具体为:作为歌曲评论的文本词汇的向量的每一列为一个单词,值为该单词在作为歌曲评论的文本中出现的频数。进一步地,通过机器学习分类模型训练相应的数据,以预测针对当前歌曲的评论的预测感情。进一步地,预测针对当前歌曲的评论是积极的,还是消极的。
现有的,通过词袋模型对歌曲评论所作的情感分析的方法的缺点之一,忽略了上下文信息。例如,若针对当前歌曲的评论为这首歌曲不是很好听,则通过词袋模型对该条评论容易做出该条评论的情感为积极的错误判断。
其次,通过词袋模型对歌曲评论所作的情感分析的方法的缺点还有,在数据集规模比较大的情况下,向量维度过大,使得对歌曲评论的分析过程过于复杂,且耗时,浪费了宝贵的内存资源。
发明内容
本发明实施例在于提供一种歌曲评论的分析方法和系统,通过优化的训练分类模型,不仅解决了目前的歌曲评论的分析方法的上下文信息缺失的问题,以及数据集规模过大的问题,进一步地,大大地提高了歌曲评论分析的准确率。
第一方面,本发明实施例提供了一种歌曲评论的分析方法,所述方法包括:
选取歌曲评论的样本,并对所述样本进行相应的标注,以获取到标注后的样本;
按照预定规则将所述标注后的样本分为训练集样本和测试集样本;
对所述训练集样本以及所述测试集样本进行分词处理,并通过训练模型对处理过的文本进行训练,以得到相应的文本的向量;
通过训练分类模型对训练集样本中的文本向量进行训练,以得到优化的训练分类模型,以及
通过优化的训练分类模型对测试集样本中的歌曲评论进行分析。
优选的,采用简易中文分词系统对所述训练集样本以及所述测试集样本进行分词处理。
优选的,所述方法还包括:
将所述训练集样本以及所述测试集样本中的停用词或者标点符号进行过滤处理。
优选的,在得到优化的训练分类模型之后,所述方法还包括:
通过测试集样本中的文本向量评估优化的训练分类模型的准确度。
优选的,所述方法还包括:
将选取的当前歌曲评论的样本标注为积极的歌曲评论的样本,或者,将选取的当前歌曲评论的样本标注为消极的歌曲评论的样本。
优选的,通过doc2vec训练模型对处理过的文本进行训练,以得到相应的文本的向量,其中,所述相应的文本的向量具体包括如下至少一种向量:
当前待预测的单词在给定的上下文中的向量,以及当前待预测的单词所在段落的向量。
优选的,根据当前待预测的单词在给定的上下文中的向量,以及当前待预测的单词所在段落的向量,给出当前待预测的单词出现的概率。
优选的,若当前待预测的单词所在段落的向量ID保持不变,则相应的段落向量维持不变。
优选的,通过GBDT训练分类模型对训练集样本中的文本向量进行训练,以得到优化的训练分类模型。
第二方面,本发明实施例提供了一种歌曲评论的分析系统,所述系统包括:
标注样本获取单元,选取歌曲评论的样本,并对所述样本进行相应的标注,以获取到标注后的样本;
样本分类单元,按照预定规则将所述标注后的样本分为训练集样本和测试集样本;
文本向量获取单元,对所述训练集样本以及所述测试集样本进行分词处理,并通过训练模型对处理过的文本进行训练,以得到相应的文本的向量;
模型获取及评论分析单元,通过训练分类模型对训练集样本中的文本向量进行训练,以得到优化的训练分类模型,以及
通过优化的训练分类模型对测试集样本中的歌曲评论进行分析。
本发明实施例提供了一种歌曲评论的分析方法和系统,其中,所述方法包括:选取歌曲评论的样本,并对样本进行相应的标注,以获取到标注后的样本;按照预定规则将标注后的样本分为训练集样本和测试集样本;对训练集样本以及测试集样本进行分词处理,并通过训练模型对处理过的文本进行训练,以得到相应的文本的向量;通过训练分类模型对训练集样本中的文本向量进行训练,以得到优化的训练分类模型,以及通过优化的训练分类模型对测试集样本中的歌曲评论进行分析。本发明实施例中的优化的训练分类模型,不仅解决了目前的歌曲评论的分析方法的上下文信息缺失的问题,以及数据集规模过大的问题,进一步地,大大地提高了歌曲评论分析的准确率。
附图说明
图1是本发明实施例提供的一种歌曲评论的分析方法的流程图;
图2是本发明实施例提供的一种歌曲评论的分析系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为便于对本发明实施例的理解,下面将结合附图以具体实施例做进一步的解释说明。
本发明所提供的技术方案中,通过选取歌曲评论的样本,并对样本进行相应的标注,以获取到标注后的样本;按照预定规则将标注后的样本分为训练集样本和测试集样本;对训练集样本以及测试集样本进行分词处理,并通过训练模型对处理过的文本进行训练,以得到相应的文本的向量;通过训练分类模型对训练集样本中的文本向量进行训练,以得到优化的训练分类模型,以及通过优化的训练分类模型对测试集样本中的歌曲评论进行分析。本发明实施例中的优化的训练分类模型,不仅解决了目前的歌曲评论的分析方法的上下文信息缺失的问题,以及数据集规模过大的问题,进一步地,大大地提高了歌曲评论分析的准确率。
下面结合附图详细说明本发明的技术方案。
本发明实施例提供的一种歌曲评论的分析方法的流程图,如图1所示,一种歌曲评论的分析方法包括如下步骤:
S101:选取歌曲评论的样本,并对样本进行相应的标注,以获取到标注后的样本。
具体而言,将选取的当前歌曲评论的样本标注为积极的歌曲评论的样本,或者,将选取的当前歌曲评论的样本标注为消极的歌曲评论的样本。
S102:按照预定规则将标注后的样本分为训练集样本和测试集样本。
在本发明的一个具体实施例中,预定规则具体为:将标注后的样本中的7份规定为训练集样本,标注后的样本中的3份规定为测试集样本。
S103:对训练集样本以及测试集样本进行分词处理,并通过训练模型对处理过的文本进行训练,以得到相应的文本的向量。
具体而言,采用简易中文分词系统对训练集样本以及测试集样本进行分词处理。
在本发明的具体实施例中,采用的分词处理具体为SCWS(Simple Chinese WordSegmentation,简易中文分词系统)。该简易中文分词系统是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分成词。
进一步地,在本发明的具体实施例中,为了使得得到的优化的训练分类模型更加准确,本发明具体实施例所提供的歌曲评论的分析方法还包括:将训练集样本以及测试集样本中的停用词或者标点符号进行过滤处理。
进一步地,通过doc2vec训练模型对处理过的文本进行训练,以得到相应的文本的向量,其中,相应的文本的向量具体包括如下至少一种向量:
当前待预测的单词在给定的上下文中的向量,以及当前待预测的单词所在段落的向量。
在本发明的具体实施例中,doc2vec训练模型的算法思想为:对词向量进行平均处理,仍然忽略了单词之间的排列顺序对情感分析的影响。不同于word2vec只是基于词的维度进行语义分析的,而并不具有上下文的语义分析的能力。
在本发明的具体实施例中,根据当前待预测的单词在给定的上下文中的向量,以及当前待预测的单词所在段落的向量,给出当前待预测的单词出现的概率。
在本发明的具体实施例中,若当前待预测的单词所在段落的向量ID保持不变,则相应的段落向量维持不变。
具体而言,在一个句子或者文档的训练过程中,段落ID保持不变,则共享着同一个段落向量。
S104:通过训练分类模型对训练集样本中的文本向量进行训练,以得到优化的训练分类模型,以及通过优化的训练分类模型对测试集样本中的歌曲评论进行分析。
具体而言,通过GBDT训练分类模型对训练集样本中的文本向量进行训练,以得到优化的训练分类模型。
在本发明的具体实施例中,GBDT(Gradient Boosting Decision Tree)是一种迭代的决策树算法,在此不再赘述。
进一步地,在得到优化的训练分类模型之后,所述方法还包括:
通过测试集样本中的文本向量评估优化的训练分类模型的准确度。
经过验证,本发明所提供的技术方案中的优化的训练分类模型的准确度达到86%,远远地高于现有的训练分类模型。
综上所述,本发明实施例提供的一种歌曲评论的分析方法,通过选取歌曲评论的样本,并对样本进行相应的标注,以获取到标注后的样本;按照预定规则将标注后的样本分为训练集样本和测试集样本;对训练集样本以及测试集样本进行分词处理,并通过训练模型对处理过的文本进行训练,以得到相应的文本的向量;通过训练分类模型对训练集样本中的文本向量进行训练,以得到优化的训练分类模型,以及通过优化的训练分类模型对测试集样本中的歌曲评论进行分析。本发明实施例中的优化的训练分类模型,不仅解决了目前的歌曲评论的分析方法的上下文信息缺失的问题,以及数据集规模过大的问题,进一步地,大大地提高了歌曲评论分析的准确率。
如图2所示,本发明实施例所提供的一种歌曲评论的分析系统,包括:标注样本获取单元201、样本分类单元202、文本向量获取单元203和模型获取及评论分析单元204。
具体而言,标注样本获取单元,选取歌曲评论的样本,并对样本进行相应的标注,以获取到标注后的样本。
进一步地,标注样本获取单元具体用于:将选取的当前歌曲评论的样本标注为积极的歌曲评论的样本,或者,将选取的当前歌曲评论的样本标注为消极的歌曲评论的样本。
样本分类单元,按照预定规则将标注后的样本分为训练集样本和测试集样本。
文本向量获取单元,对训练集样本以及测试集样本进行分词处理,并通过训练模型对处理过的文本进行训练,以得到相应的文本的向量。
进一步地,文本向量获取单元具体用于:采用简易中文分词系统对训练集样本以及测试集样本进行分词处理。
进一步地,文本向量获取单元具体还用于:将训练集样本以及测试集样本中的停用词或者标点符号进行过滤处理。
进一步地,文本向量获取单元具体还用于:通过doc2vec训练模型对处理过的文本进行训练,以得到相应的文本的向量,其中,相应的文本的向量具体包括如下至少一种向量:当前待预测的单词在给定的上下文中的向量,以及当前待预测的单词所在段落的向量。
进一步地,文本向量获取单元具体还用于:根据当前待预测的单词在给定的上下文中的向量,以及当前待预测的单词所在段落的向量,给出当前待预测的单词出现的概率。其中,若当前待预测的单词所在段落的向量ID保持不变,则相应的段落向量维持不变。
模型获取及评论分析单元,通过训练分类模型对训练集样本中的文本向量进行训练,以得到优化的训练分类模型,以及通过优化的训练分类模型对测试集样本中的歌曲评论进行分析。
进一步地,模型获取及评论分析单元还具体用于:通过GBDT训练分类模型对训练集样本中的文本向量进行训练,以得到优化的训练分类模型。
进一步地,模型获取及评论分析单元还具体用于:在得到优化的训练分类模型之后,通过测试集样本中的文本向量评估优化的训练分类模型的准确度。
本发明的技术方案中,通过选取歌曲评论的样本,并对样本进行相应的标注,以获取到标注后的样本;按照预定规则将标注后的样本分为训练集样本和测试集样本;对训练集样本以及测试集样本进行分词处理,并通过训练模型对处理过的文本进行训练,以得到相应的文本的向量;通过训练分类模型对训练集样本中的文本向量进行训练,以得到优化的训练分类模型,以及通过优化的训练分类模型对测试集样本中的歌曲评论进行分析。本发明实施例中的优化的训练分类模型,不仅解决了目前的歌曲评论的分析方法的上下文信息缺失的问题,以及数据集规模过大的问题,进一步地,大大地提高了歌曲评论分析的准确率。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种歌曲评论的分析方法,其特征在于,包括:
选取歌曲评论的样本,并对所述样本进行相应的标注,以获取到标注后的样本;
按照预定规则将所述标注后的样本分为训练集样本和测试集样本;
对所述训练集样本以及所述测试集样本进行分词处理,并通过训练模型对处理过的文本进行训练,以得到相应的文本的向量;
通过训练分类模型对训练集样本中的文本向量进行训练,以得到优化的训练分类模型,以及
通过优化的训练分类模型对测试集样本中的歌曲评论进行分析。
2.根据权利要求1所述的方法,其特征在于,采用简易中文分词系统对所述训练集样本以及所述测试集样本进行分词处理。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述训练集样本以及所述测试集样本中的停用词或者标点符号进行过滤处理。
4.根据权利要求1所述的方法,其特征在于,在得到优化的训练分类模型之后,所述方法还包括:
通过测试集样本中的文本向量评估优化的训练分类模型的准确度。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将选取的当前歌曲评论的样本标注为积极的歌曲评论的样本,或者,将选取的当前歌曲评论的样本标注为消极的歌曲评论的样本。
6.根据权利要求1所述的方法,其特征在于,通过doc2vec训练模型对处理过的文本进行训练,以得到相应的文本的向量,其中,所述相应的文本的向量具体包括如下至少一种向量:
当前待预测的单词在给定的上下文中的向量,以及当前待预测的单词所在段落的向量。
7.根据权利要求6所述的方法,其特征在于,根据当前待预测的单词在给定的上下文中的向量,以及当前待预测的单词所在段落的向量,给出当前待预测的单词出现的概率。
8.根据权利要求6所述的方法,其特征在于,若当前待预测的单词所在段落的向量ID保持不变,则相应的段落向量维持不变。
9.根据权利要求1所述的方法,其特征在于,通过GBDT训练分类模型对训练集样本中的文本向量进行训练,以得到优化的训练分类模型。
10.一种歌曲评论的分析系统,其特征在于,包括:
标注样本获取单元,选取歌曲评论的样本,并对所述样本进行相应的标注,以获取到标注后的样本;
样本分类单元,按照预定规则将所述标注后的样本分为训练集样本和测试集样本;
文本向量获取单元,对所述训练集样本以及所述测试集样本进行分词处理,并通过训练模型对处理过的文本进行训练,以得到相应的文本的向量;
模型获取及评论分析单元,通过训练分类模型对训练集样本中的文本向量进行训练,以得到优化的训练分类模型,以及
通过优化的训练分类模型对测试集样本中的歌曲评论进行分析。
CN201611170048.2A 2016-12-16 2016-12-16 一种歌曲评论的分析方法和系统 Pending CN108205542A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611170048.2A CN108205542A (zh) 2016-12-16 2016-12-16 一种歌曲评论的分析方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611170048.2A CN108205542A (zh) 2016-12-16 2016-12-16 一种歌曲评论的分析方法和系统

Publications (1)

Publication Number Publication Date
CN108205542A true CN108205542A (zh) 2018-06-26

Family

ID=62601668

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611170048.2A Pending CN108205542A (zh) 2016-12-16 2016-12-16 一种歌曲评论的分析方法和系统

Country Status (1)

Country Link
CN (1) CN108205542A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109597916A (zh) * 2018-11-07 2019-04-09 北京达佳互联信息技术有限公司 视频风险分类方法、装置、电子设备及储存介质
CN110472056A (zh) * 2019-08-21 2019-11-19 北京美住美宿科技有限公司 一种评论数据分类方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050228643A1 (en) * 2004-03-23 2005-10-13 Munteanu Dragos S Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
CN104573046A (zh) * 2015-01-20 2015-04-29 成都品果科技有限公司 一种基于词向量的评论分析方法及系统
CN104794212A (zh) * 2015-04-27 2015-07-22 清华大学 基于用户评论文本的上下文情感分类方法及分类系统
CN105824922A (zh) * 2016-03-16 2016-08-03 重庆邮电大学 一种融合深层特征和浅层特征的情感分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050228643A1 (en) * 2004-03-23 2005-10-13 Munteanu Dragos S Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
CN104573046A (zh) * 2015-01-20 2015-04-29 成都品果科技有限公司 一种基于词向量的评论分析方法及系统
CN104794212A (zh) * 2015-04-27 2015-07-22 清华大学 基于用户评论文本的上下文情感分类方法及分类系统
CN105824922A (zh) * 2016-03-16 2016-08-03 重庆邮电大学 一种融合深层特征和浅层特征的情感分类方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109597916A (zh) * 2018-11-07 2019-04-09 北京达佳互联信息技术有限公司 视频风险分类方法、装置、电子设备及储存介质
CN110472056A (zh) * 2019-08-21 2019-11-19 北京美住美宿科技有限公司 一种评论数据分类方法及系统

Similar Documents

Publication Publication Date Title
CN107491435B (zh) 基于计算机自动识别用户情感的方法及装置
CN109241383B (zh) 一种基于深度学习的网页类型智能识别方法及系统
CN104899298A (zh) 一种基于大规模语料特征学习的微博情感分析方法
CN109635288A (zh) 一种基于深度神经网络的简历抽取方法
CN106815194A (zh) 模型训练方法及装置和关键词识别方法及装置
CN106777957B (zh) 不平衡数据集上生物医学多参事件抽取的新方法
CN110532563A (zh) 文本中关键段落的检测方法及装置
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN111274814B (zh) 一种新型的半监督文本实体信息抽取方法
CN108563638A (zh) 一种基于主题识别和集成学习的微博情感分析方法
Singh et al. A decision tree based word sense disambiguation system in Manipuri language
CN104142912A (zh) 一种精确的语料类别标注方法及装置
CN104346326A (zh) 一种情绪文本的情绪特征确定方法及装置
CN108319581A (zh) 一种自然语言语句评价方法及装置
CN108280164A (zh) 一种基于类别相关单词的短文本过滤与分类方法
CN104317882B (zh) 一种决策级中文分词融合方法
CN110750978A (zh) 情感倾向分析方法、装置、电子设备及存储介质
CN105609116A (zh) 一种语音情感维度区域的自动识别方法
CN108681532B (zh) 一种面向中文微博的情感分析方法
CN110135225A (zh) 样本标注方法及计算机存储介质
CN108536673B (zh) 新闻事件抽取方法及装置
CN105389303B (zh) 一种异源语料自动融合方法
CN105740233A (zh) 一种基于条件随机场和转换学习越南语组块方法
CN111814476A (zh) 一种实体关系的抽取方法和装置
CN109346108B (zh) 一种作业检查方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180626