CN112163116A - 歌曲归类方法、装置及计算机可读存储介质 - Google Patents
歌曲归类方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112163116A CN112163116A CN202011043472.7A CN202011043472A CN112163116A CN 112163116 A CN112163116 A CN 112163116A CN 202011043472 A CN202011043472 A CN 202011043472A CN 112163116 A CN112163116 A CN 112163116A
- Authority
- CN
- China
- Prior art keywords
- song
- value
- frequency
- classified
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012545 processing Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 230000000875 corresponding effect Effects 0.000 description 18
- 230000002596 correlated effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/65—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种歌曲归类方法、装置及存储介质,属于媒体技术领域。在本申请实施例中,通过计算歌曲的歌曲标签的价值评分来确定该歌曲的是否归属于参考歌曲集合。由于价值评分表征了相应地歌曲标签在参考歌曲集合中出现的频次和在全盘歌曲集合中出现的频次的差异性,所以,通过多个歌曲标签的价值评分能够综合衡量该歌曲属于该参考歌曲集合的概率,进而能够判断出该歌曲是否可归类到该参考歌曲集合中。由此可见,本申请实施例提供的歌曲归类方法不依赖人工设定标签的关联关系,能够实现歌曲的自动、智能分类,降低了歌曲归类成本。
Description
技术领域
本申请涉及媒体技术领域,特别涉及一种歌曲归类方法、装置及计算机可读存储介质。
背景技术
当前,对于歌曲库中歌曲,根据该歌曲的特点,能够将该歌曲归类至与其具有相同或相似特点的歌曲集合中。这样,后续就能够根据每个歌曲集合的特点为用户推荐歌曲。
相关技术中,由人工设定歌曲的歌曲标签,并建立歌曲标签之间的关联关系。之后,服务器根据歌曲标签之间的关联关系来对歌曲进行归类。例如,人工为歌曲A设定的歌曲标签为动漫,为歌曲B设定的歌曲标签游戏,且动漫和游戏这两个歌曲标签之间建立了关联关系,则服务器根据动漫和游戏这两个歌曲标签之间的关联关系,将会将歌曲A和歌曲B划分到一个歌曲集合中。然而,这种方法由于需要依靠人工设定歌曲标签以及确定歌曲标签之间的关联关系,因此,人力成本过高。
发明内容
本申请实施例提供了一种歌曲归类方法、装置及计算机可读存储介质,可以自动且智能的将歌曲进行归类,降低歌曲归类成本。所述技术方案如下:
一方面,提供了一种歌曲归类方法,所述方法包括:
获取待归类歌曲的歌曲标签;
确定所述歌曲标签的价值评分,所述价值评分与所述歌曲标签的频次差异值呈正相关,所述频次差异值是指所述歌曲标签在参考歌曲集合和全盘歌曲集合中出现频次的差值,所述参考歌曲集合为已归为一类的歌曲的集合,所述全盘歌曲集合为未归为一类的歌曲的集合;
根据歌曲标签的价值评分,确定所述待归类歌曲的归类结果,所述归类结果用于指示所述待归类歌曲是否归属于所述参考歌曲集合。
可选地,所述获取待归类歌曲的歌曲标签,包括:
对所述待归类歌曲的评论文本进行分词处理,得到多个评论词组;
从所述多个评论词组中提取所述待归类歌曲的歌曲标签。
可选地,所述确定所述歌曲标签的价值评分,包括:
统计歌曲标签在所述参考歌曲集合包括的全部歌曲的评论文本中的出现频次,得到第一频次值;
统计所述歌曲标签在所述全盘歌曲集合包括的全部歌曲的评论文本中出现的频次,得到第二频次值;
根据所述第一频次值和所述第二频次值确定所述歌曲标签的价值评分。
可选地,所述根据所述第一频次值和所述第二频次值确定所述歌曲标签的价值评分,包括:
确定第一频次值与第二频次值之间的差值,得到第一数值;
确定第一频次值与第二频次值的和,得到第二数值;
将所述第一数值和所述第二数值的比值作为所述歌曲标签的价值评分。
可选地,所述根据所述第一频次值和所述第二频次值确定所述第一歌曲标签的价值评分,包括:
确定所述第一频次值与所述第二频次值之间的差值,得到第一数值;
将所述第一数值与所述第一频次值之间的比值作为所述歌曲标签的价值评分。
可选地,所述根据歌曲标签的价值评分,确定所述待归类歌曲的归类结果,包括:
根据歌曲标签的价值评分,确定所述待归类歌曲的歌曲评分;
如果所述待归类歌曲的歌曲评分大于参考阈值,则确定所述待归类歌曲归属于所述参考歌曲集合,所述参考阈值根据所述参考歌曲集合内歌曲的歌曲评分的分布规律确定得到。
可选地,所述根据歌曲标签的价值评分,确定所述待归类歌曲的歌曲评分,包括:
确定歌曲标签在所述待归类歌曲的评论文本中出现的频次;
根据歌曲标签在所述待归类歌曲的评论文本中出现的频次和歌曲标签的价值评分,确定所述待归类歌曲的歌曲评分。
另一方面,提供了一种歌曲分类装置,所述装置包括:
获取模块,用于获取待归类歌曲的歌曲标签;
第一确定模块,用于确定所述歌曲标签的价值评分,所述价值评分与所述歌曲标签的频次差异值呈正相关,所述频次差异值是指所述歌曲标签在参考歌曲集合和全盘歌曲集合中出现频次的差值,所述参考歌曲集合为已归为一类的歌曲的集合,所述全盘歌曲集合为未归为一类的歌曲的集合;
第二确定模块,用于根据歌曲标签的价值评分,确定所述待归类歌曲的归类结果,所述归类结果用于指示所述待归类歌曲是否归属于所述参考歌曲集合。
可选地,所述获取模块用于:
对所述待归类歌曲的评论文本进行分词处理,得到多个评论词组;
从所述多个评论词组中提取所述待归类歌曲的歌曲标签。
可选地,所述第一确定模块用于:
统计歌曲标签在所述参考歌曲集合包括的全部歌曲的评论文本中的出现频次,得到第一频次值;
统计所述歌曲标签在所述全盘歌曲集合包括的全部歌曲的评论文本中出现的频次,得到第二频次值;
根据所述第一频次值和所述第二频次值确定所述歌曲标签的价值评分。
可选地,所述第一确定模块用于:
确定第一频次值与第二频次值之间的差值,得到第一数值;
确定第一频次值与第二频次值的和,得到第二数值;
将所述第一数值和所述第二数值的比值作为所述歌曲标签的价值评分。
可选地,所述第一确定模块用于:
确定所述第一频次值与所述第二频次值之间的差值,得到第一数值;
将所述第一数值与所述第一频次值之间的比值作为所述歌曲标签的价值评分。
可选地,所述第二确定模块用于:
根据歌曲标签的价值评分,确定所述待归类歌曲的歌曲评分;
如果所述待归类歌曲的歌曲评分大于参考阈值,则确定所述待归类歌曲归属于所述参考歌曲集合,所述参考阈值根据所述参考歌曲集合内歌曲的歌曲评分的分布规律确定得到。
可选地,所述第二确定模块用于:
确定歌曲标签在所述待归类歌曲的评论文本中出现的频次;
根据歌曲标签在所述待归类歌曲的评论文本中出现的频次和歌曲标签的价值评分,确定所述待归类歌曲的歌曲评分。
另一方面,提供了一种歌曲归类装置,所述装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器执行所述存储器中的可执行指令来执行上述歌曲归类方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质内存储有计算机程序,所述计算机程序被计算机执行时实现上述所述歌曲归类方法的步骤。
另一方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述的歌曲归类方法的步骤。
本申请实施例提供的技术方案带来的有益效果至少包括:
在本申请实施例中,通过计算歌曲的歌曲标签的价值评分来确定该歌曲的是否归属于参考歌曲集合。由于价值评分越高,相应地歌曲标签在参考歌曲集合中出现的频次和在全盘歌曲集合中出现的频次的差值越大,所以,通过多个歌曲标签的价值评分能够综合衡量该歌曲属于该参考歌曲集合的概率,进而能够判断出该歌曲是否可归类到该参考歌曲集合中。由此可见,本申请实施例提供的歌曲归类方法不依赖人工设定标签的关联关系,能够实现歌曲的自动、智能分类,降低了歌曲归类成本,且能够保证归类的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种歌曲归类方法流程图;
图2是本申请实施例提供的一种热歌集合内歌曲的歌曲评分分布规律示意图;
图3是本申请实施例提供的一种全盘歌曲集合内歌曲的歌曲评分分布规律示意图;
图4是本申请实施例提供的一种歌曲归类装置的示意图;
图5是本申请实施例提供的一种用于进行歌曲归类的服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
在对本申请实施例进行详细的解释说明之前,先对本申请实施例涉及的应用场景进行介绍。
当前,为了更好的向用户推荐歌曲,提高歌曲的点击率,对于曲库中的所有歌曲,可以按照不同歌曲的特点形成不同的歌曲集合。例如,将儿歌作为一类歌曲,形成一个歌曲集合。或者,将与某一类动漫有关的歌曲归为一类,形成一个歌曲集合。再例如,根据歌曲的受众范围,将某些受众范围广的歌曲归为一类,形成热歌集合,等等。本申请实施例提供的歌曲归类方法即用于上述场景下,在已存在某些参考歌曲集合的情况下,判断一首待归类歌曲是否能够归类到某个参考歌曲集合中。
接下来对本申请实施例提供的歌曲归类方法进行介绍。
图1是本申请实施例提供的一种歌曲归类方法。该方法可以应用于用于提供音乐服务的服务器中。如图1所示,该方法包括以下步骤:
步骤101:获取待归类歌曲的歌曲标签。
其中,待归类歌曲是指曲库中的任一首歌曲。示例性地,待归类歌曲可以是指未被归类到任何一个歌曲集合中的歌曲,或者,也可以是指已经被归类到某个歌曲集合中的歌曲。
在一种可能的实现方式中,服务器对待归类歌曲的评论文本进行分词处理,得到多个评论词组,从多个评论词组中提取待归类歌曲的歌曲标签。其中,提取到的待归类歌曲的歌曲标签的个数可能为一个,也可能为多个。
其中,待归类歌曲的评论文本包括多个。服务器对每个评论文本进行分词处理,并剔除分词后得到的多个词组中的停用词,将剩余的词组作为评论词组。在得到多个评论词组之后,服务器统计该多个评论词组中各个评论词组的出现次数,并将出现次数排在前N位的评论词组作为待归类歌曲的歌曲标签。其中,出现次数按照从大到小进行排列。N为大于0的正整数。
在另一种可能的实现方式中,该待归类歌曲当前可能已经存在于多个歌曲集合中,在这种情况下,服务器提取该待归类歌曲已经从属的多个歌曲集合的特征标签,将该特征标签作为该待归类歌曲的歌曲标签。其中,歌曲集合的特征标签是从该歌曲集合包括的歌曲的歌曲标签中获取得到。
上述是本申请实施例给出的一些获取歌曲标签的示例,在一些可能的实现方式中,服务器可以从待归类歌曲的歌曲名或歌词中提取标签,或者,服务器获取由运营商定义或用户自定义的歌曲标签,本申请实施例对此不做限定。
步骤102:确定歌曲标签的价值评分,该价值评分与歌曲标签的频次差异值呈正相关,频次差异值是指在歌曲标签参考歌曲集合和全盘歌曲集合中出现频次的差值。
在获取到待归类歌曲的歌曲标签之后,如果歌曲标签为一个,则服务器确定这一个歌曲标签的价值评分,如果歌曲标签为多个,则服务器确定多个歌曲标签中每个歌曲标签的价值评分。其中,该价值评分与相应歌曲标签在参考歌曲集合中的出现频次和在全盘歌曲集合中的出现频次的差值呈正相关。也就是说,歌曲标签的价值评分越高,该歌曲标签在参考歌曲集合中的出现频次和在全盘歌曲集合中的出现频次之间的差值越大,相应地,该歌曲标签属于该参考歌曲集合的可能概率也越大。接下来以确定一个歌曲标签的价值评分为例来对本步骤的实现过程进行说明。
示例性地,当该歌曲标签是从待归类歌曲的评论文本中提取得到时,服务器统计该歌曲标签在参考歌曲集合包括的全部歌曲的评论文本中出现的频次,得到第一频次值;统计该歌曲标签在全盘歌曲集合包括的全部歌曲的评论文本中出现的频次,得到第二频次值;根据第一频次值和第二频次值确定该歌曲标签的价值评分。
其中,参考歌曲集合是指已归为一类的歌曲的集合,也就是说,该参考歌曲集合包括属于同一类的多首歌曲,并且,该参考歌曲集合中不包括该待归类歌曲。例如,该参考歌曲集合为校园电影的影视原声歌曲的集合。全盘歌曲集合为未归为一类的歌曲的集合,也即,全盘歌曲集合包括曲库中不属于同一类的多首歌曲,并且,该全盘歌曲集合中可以包括该待归类歌曲,也可以不包括该待归类歌曲。示例性地,该全盘歌曲集合为当前曲库中的所有歌曲的集合。或者,该全盘歌曲集合包括当前曲库中未分类的多首歌曲。或者,该全盘歌曲集合包括已经分类得到的多个歌曲集合中的歌曲,例如,当前分类得到的歌曲集合有集合A、集合B、集合C和参考歌曲集合,则该全盘歌曲集合可以包括这几个集合中的全部或部分歌曲。或者,该全盘歌曲集合包括未分类的多首歌曲和已经分类得到的多个歌曲集合中的歌曲。可选地,参考歌曲集合是全盘歌曲集合的子集。
在本申请实施例中,服务器首先统计该歌曲标签在参考歌曲集合包括的全部歌曲的评论文本中出现的频次。需要说明的是,对于参考歌曲集合中的歌曲的任一条评论文本,如果该评论文本中包含有该歌曲标签,即认为该歌曲标签出现了一次。如此,服务器统计该参考歌曲集合包括的全部歌曲的评论文本中包含有该歌曲标签的评论文本的条数,将统计得到的包含有该歌曲标签的评论文本的条数作为第一频次值。同理,对于该歌曲标签在全盘歌曲集合包括的全部歌曲的评论文本中出现的频次,也采用同样的方法进行统计,本申请实施例对此不再赘述。
在得到第一频次值和第二频次值之后,在一种可能的实现方式中,服务器确定第一频次值和第二频次值之间的差值,得到第一数值;确定第一频次值和第二频次值的和,得到第二数值,将第一数值和第二数值之间的比值作为该歌曲标签的价值评分。
可选地,在另一种可能的实现方式中,服务器将第一数值与第二频次值之间的比值作为该歌曲标签的价值评分,或者,将第一数值与第一频次值之间的比值作为该歌曲标签的价值评分,或者,将第一频次值和第二频次值之间的比值作为该歌曲标签的价值评分,本申请实施例对此不做限定。
可选地,当歌曲标签是从待归类歌曲当前已经从属的歌曲集合的特征标签中得到时,服务器统计该歌曲标签在待归类歌曲当前已经从属的歌曲集合的特征标签中出现的频次,得到第三频次值,统计该歌曲标签在曲库内的所有歌曲集合的特征标签中出现的频次,得到第四频次值,之后,参考前述的方法,根据第三频次值和第四频次值确定得到该歌曲标签的价值评分,其中,根据第三频次值和第四频次值确定该歌曲标签的价值评分的方法可以参考前述介绍的根据第一频次值和第二频次值确定第一歌曲标签的价值评分的方法,本申请实施例对此不再赘述。其中,需要说明的是,该种实现方式与上一种实现方式的区别在于统计频次值的范围不同,也即,当歌曲标签的来源不同时,统计的频次值的范围也会有所不同。对于歌曲标签来源于其他内容的情况,可以参考上述实现方式,本申请实施例对此不再赘述。
当歌曲标签的数量为多个时,每个歌曲标签的价值评分的确定过程均可以参考上述介绍的实现方式,本申请实施例在此不再赘述。
由上述介绍可知,歌曲标签的价值评分能够反映出该歌曲标签在参考歌曲集合中与在全盘歌曲集合中的出现频次的差值大小。其中,该歌曲标签在参考歌曲集合上的出现频次与在全盘歌曲集合中的出现频次的差值越大,该歌曲标签的价值评分越高,相应地,该歌曲标签属于参考歌曲集合的可能概率也越高。如此,根据歌曲标签的价值评分,即能够评价待归类歌曲归属于该参考歌曲集合的可能概率。
步骤103:根据歌曲标签的价值评分,确定待归类歌曲的归类结果,归类结果用于指示待归类歌曲是否归属于参考歌曲集合。
在确定待归类歌曲的歌曲标签的价值评分之后,服务器根据歌曲标签的价值评分,确定待归类歌曲的歌曲评分,进而根据该歌曲评分确定待归类歌曲是否归属于该参考歌曲集合。
其中,如果歌曲标签的个数为多个,则在一种可能的实现方式中,服务器将各个歌曲标签的价值评分进行累加,从而得到待归类歌曲的歌曲评分。
在另一种可能的实现方式中,当待归类歌曲的多个歌曲标签来自于待归类歌曲的评论文本时,服务器确定每个歌曲标签在待归类歌曲的评论文本中出现的频次;根据每个歌曲标签在待归类歌曲的评论文本中出现的频次和每个歌曲标签的价值评分,确定待归类歌曲的歌曲评分。
其中,以多个歌曲标签中的第一歌曲标签为例,服务器统计待归类歌曲的评论文本中包含有第一歌曲标签的评论文本的数量,将该数量作为第一歌曲标签在待归类歌曲的评论文本中出现的频次。对于每个歌曲标签,均可以通过上述方式得到相应歌曲标签在待归类歌曲的评论文本中出现的频次。
在确定得到每个歌曲标签在待归类歌曲的评论文本中出现的频次之后,服务器通过下述公式,确定待归类歌曲的歌曲评分。
其中,S为待归类歌曲的歌曲评分,Pi是指第i个歌曲标签的价值评分,Qi是指第i个歌曲标签在待归类歌曲的评论文本中出现的频次,n是指待归类歌曲的歌曲标签的数量。
需要说明的是,当待归类歌曲的多个歌曲标签来自于与待归类歌曲相关的其他内容,则上述实现方式中每个歌曲标签在待归类歌曲的评论文本中出现的频次这一参数可以相应地更换为每个歌曲标签在与待归类歌曲相关的其他内容中出现的频次,本申请实施例对此不再赘述。
在另一种可能的实现方式中,当待归类歌曲的歌曲标签的个数为多个时,服务器为每个歌曲标签分配对应的权重值,之后,根据每个歌曲标签的价值评分和对应的权重值,确定该待归类歌曲的歌曲评分。
以歌曲标签是从待归类歌曲的评论文本中提取得到为例,服务器根据歌曲标签在待归类歌曲的评论文本中的出现次数的多少来为各个歌曲标签分配对应的权重值,其中,出现次数越多,对应的权重值越高,多个歌曲标签对应的权重值的和为1。
或者,在一些其他的实现方式中,服务器也可以按照其他原则来分配每个歌曲标签对应的权重值,本申请实施例对此不做限定。
在确定每个歌曲标签分配对应的权重值之后,服务器通过下述公式(2)确定该待归类歌曲的歌曲评分。
其中,S为待归类歌曲的歌曲评分,Pi是指第i个歌曲标签的价值评分,qi是指第i个歌曲标签对应的权重值,n是指待归类歌曲的歌曲标签的数量。
可选地,如果歌曲标签的个数为一个,则服务器可以直接将该歌曲标签的价值评分作为待归类歌曲的歌曲评分。或者,服务器参考前述方法确定该歌曲标签在待归类歌曲的评论文本中出现的频次,将该歌曲标签的价值评分和在待归类歌曲的评论文本中出现的频次之间的乘积作为待归类歌曲的歌曲评分。
在确定待归类歌曲的歌曲评分之后,服务器比较该歌曲评分与参考阈值的大小。如果该歌曲评分大于参考阈值,说明该待归类歌曲与参考歌曲集合中的歌曲相似,此时,将待归类歌曲归类至该参考歌曲集合。如果该歌曲评分不大于参考阈值,则说明待归类歌曲与参考歌曲集合中的歌曲并不相似,此时,则不将该待归类歌曲归类至该参考歌曲集合。
需要说明的是,参考阈值根据参考歌曲集合内歌曲的歌曲评分的分布规律确定得到。进一步地,参考阈值根据参考歌曲集合内歌曲的歌曲评分的分布规律和全盘歌曲集合中歌曲的歌曲评分的分布规律综合得到。
其中,服务器统计参考歌曲集合内歌曲的歌曲评分的分布规律和全盘歌曲集合内歌曲的歌曲评分的分布规律,计算相同评分下的参考歌曲集合中的歌曲在全盘歌曲集合中的占比,将最大占比对应的评分确定为参考阈值。
示例性地,假设参考歌曲集合为热歌集合,该热歌集合内歌曲的歌曲评分的分布规律如图2所示,全盘歌曲集合内歌曲的歌曲评分的分布规律如图3所示。由图2和图3中可得出,相较于其他评分时,当歌曲评分为-0.1时,热歌集合中该评分对应的歌曲数在全盘歌曲集合中该评分对应的歌曲数的占比明显增大,因此,将该歌曲评分-0.1作为参考阈值。
在本申请实施例中,通过计算歌曲的歌曲标签的价值评分来确定该歌曲的是否归属于参考歌曲集合。由于价值评分与相应地歌曲标签在参考歌曲集合中出现的频次和在全盘歌曲集合中出现的频次的差值呈正相关,所以,通过多个歌曲标签的价值评分能够综合衡量该歌曲属于该参考歌曲集合的概率,进而能够判断出该歌曲是否可归类到该参考歌曲集合中。由此可见,本申请实施例提供的歌曲归类方法不依赖人工设定标签的关联关系,能够实现歌曲的自动、智能分类,降低了歌曲归类成本,且能够保证归类的准确性。
另外,由于人工设定标签的关联关系时,各个标签能够具有的关联关系相对较少,在这种情况下,根据该关联关系进行归类,能够归类的歌曲的数量较少,而本申请实施例提供的歌曲归类方法则不会受到歌曲标签的关联关系的影响,能够尽可能的圈定出与参考歌曲集合中的歌曲相似的歌曲,提高了歌曲分类的效率。
接下来,对本申请实施例提供的歌曲归类装置进行介绍。
参见图4,本申请实施例提供了一种歌曲分类装置400,装置400包括:
获取模块401,用于获取待归类歌曲的歌曲标签;
第一确定模块402,用于确定歌曲标签的价值评分,价值评分与歌曲标签的频次差异值呈正相关,该频次差异值是指歌曲标签在参考歌曲集合和全盘歌曲集合中出现频次的差值,参考歌曲集合为已为一类的歌曲的集合,全盘歌曲集合包括未归为一类的歌曲的集合;
第二确定模块403,用于根据歌曲标签的价值评分,确定待归类歌曲的归类结果,归类结果用于指示待归类歌曲是否归属于参考歌曲集合。
可选地,获取模块401用于:
对待归类歌曲的评论文本进行分词处理,得到多个评论词组;
从多个评论词组中提取待归类歌曲的歌曲标签。
可选地,第一确定模块402用于:
统计歌曲标签在参考歌曲集合包括的全部歌曲的评论文本中的出现频次,得到第一频次值;
统计歌曲标签在全盘歌曲集合包括的全部歌曲的评论文本中出现的频次,得到第二频次值;
根据第一频次值和第二频次值确定歌曲标签的价值评分。
可选地,第一确定模块402用于:
确定第一频次值与第二频次值之间的差值,得到第一数值;
确定第一频次值与第二频次值的和,得到第二数值;
将第一数值和第二数值的比值作为歌曲标签的价值评分。
可选地,第一确定模块402用于:
确定第一频次值与第二频次值之间的差值,得到第一数值;
将第一数值与第一频次值之间的比值作为歌曲标签的价值评分。
可选地,第二确定模块403用于:
根据歌曲标签的价值评分,确定待归类歌曲的歌曲评分;
如果待归类歌曲的歌曲评分大于参考阈值,则确定待归类歌曲归属于参考歌曲集合,参考阈值根据参考歌曲集合内歌曲的歌曲评分的分布规律确定得到。
可选地,第二确定模块403用于:
确定歌曲标签在待归类歌曲的评论文本中出现的频次;
根据歌曲标签在待归类歌曲的评论文本中出现的频次和歌曲标签的价值评分,确定待归类歌曲的歌曲评分。
综上所述,在本申请实施例中,通过计算歌曲的歌曲标签的价值评分来确定该歌曲的是否归属于参考歌曲集合。由于价值评分与相应地歌曲标签在参考歌曲集合中出现的频次和在全盘歌曲集合中出现的频次的差值呈正相关,所以,通过多个歌曲标签的价值评分能够综合衡量该歌曲属于该参考歌曲集合的概率,进而能够判断出该歌曲是否可归类到该参考歌曲集合中。由此可见,本申请实施例提供的歌曲归类方法不依赖人工设定标签的关联关系,能够实现歌曲的自动、智能分类,降低了歌曲归类成本,且能够保证归类的准确性。
需要说明的是,上述实施例提供的歌曲归类装置在进行歌曲归类时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的歌曲归类装置与歌曲归类方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图5是根据一示例性实施例示出的一种的服务器结构示意图。上述实施例中的服务器的功能即可以通过图5中所示的服务器来实现。该服务器可以是后台服务器集群中的服务器。具体来讲:
服务器500包括中央处理单元(CPU)501、包括随机存取存储器(RAM)502和只读存储器(ROM)503的系统存储器504,以及连接系统存储器504和中央处理单元501的系统总线505。服务器500还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)506,和用于存储操作系统513、应用程序514和其他程序模块515的大容量存储设备507。
基本输入/输出系统506包括有用于显示信息的显示器508和用于用户输入信息的诸如鼠标、键盘之类的输入设备509。其中显示器508和输入设备509都通过连接到系统总线505的输入输出控制器510连接到中央处理单元501。基本输入/输出系统506还可以包括输入输出控制器510以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器510还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备507通过连接到系统总线505的大容量存储控制器(未示出)连接到中央处理单元501。大容量存储设备507及其相关联的计算机可读介质为服务器500提供非易失性存储。也就是说,大容量存储设备507可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储设备,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器504和大容量存储设备507可以统称为存储器。
根据本申请的各种实施例,服务器500还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器500可以通过连接在系统总线505上的网络接口单元511连接到网络512,或者说,也可以使用网络接口单元511来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。所述一个或者一个以上程序包含用于进行本申请实施例提供的歌曲归类方法的指令。
本申请实施例还提供了一种计算机可读存储介质,当该存储介质中的指令由服务器的处理器执行时,使得服务器能够执行上述实施例提供的歌曲归类方法。例如,该计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。值得注意的是,本申请实施例提到的计算机可读存储介质可以为非易失性存储介质,换句话说,可以是非瞬时性存储介质。
应当理解的是,实现上述实施例的全部或部分步骤可以通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。所述计算机指令可以存储在上述计算机可读存储介质中。
也即是,在一些实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例提供的歌曲归类方法。
以上所述并不用以限制本申请实施例,凡在本申请实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请实施例的保护范围之内。
Claims (10)
1.一种歌曲归类方法,其特征在于,所述方法包括:
获取待归类歌曲的歌曲标签;
确定所述歌曲标签的价值评分,所述价值评分与所述歌曲标签的频次差异值呈正相关,所述频次差异值是指所述歌曲标签在参考歌曲集合和全盘歌曲集合中出现频次的差值,所述参考歌曲集合为已归为一类的歌曲的集合,所述全盘歌曲集合为未归为一类的歌曲的集合;
根据所述歌曲标签的价值评分,确定所述待归类歌曲的归类结果,所述归类结果用于指示所述待归类歌曲是否归属于所述参考歌曲集合。
2.根据权利要求1所述的方法,其特征在于,所述获取待归类歌曲的歌曲标签,包括:
对所述待归类歌曲的评论文本进行分词处理,得到多个评论词组;
从所述多个评论词组中提取所述待归类歌曲的歌曲标签。
3.根据权利要求1所述的方法,其特征在于,所述确定所述歌曲标签的价值评分,包括:
统计所述歌曲标签在所述参考歌曲集合包括的全部歌曲的评论文本中的出现频次,得到第一频次值;
统计所述歌曲标签在所述全盘歌曲集合包括的全部歌曲的评论文本中出现的频次,得到第二频次值;
根据所述第一频次值和所述第二频次值确定所述歌曲标签的价值评分。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一频次值和所述第二频次值确定所述歌曲标签的价值评分,包括:
确定所述第一频次值所述与第二频次值之间的差值,得到第一数值;
确定所述第一频次值与所述第二频次值的和,得到第二数值;
将所述第一数值和所述第二数值的比值作为所述歌曲标签的价值评分。
5.根据权利要求3所述的方法,其特征在于,所述根据所述第一频次值和所述第二频次值确定所述歌曲标签的价值评分,包括:
确定所述第一频次值与所述第二频次值之间的差值,得到第一数值;
将所述第一数值与所述第一频次值之间的比值作为所述歌曲标签的价值评分。
6.根据权利要求1-5任一所述的方法,其特征在于,所述根据所述歌曲标签的价值评分,确定所述待归类歌曲的归类结果,包括:
根据所述歌曲标签的价值评分,确定所述待归类歌曲的歌曲评分;
如果所述待归类歌曲的歌曲评分大于参考阈值,则确定所述待归类歌曲归属于所述参考歌曲集合,所述参考阈值根据所述参考歌曲集合内歌曲的歌曲评分的分布规律确定得到。
7.根据权利要求5所述的方法,其特征在于,所述根据所述歌曲标签的价值评分,确定所述待归类歌曲的歌曲评分,包括:
确定所述歌曲标签在所述待归类歌曲的评论文本中出现的频次;
根据所述歌曲标签在所述待归类歌曲的评论文本中出现的频次和所述歌曲标签的价值评分,确定所述待归类歌曲的歌曲评分。
8.一种歌曲归类装置,其特征在于,所述装置包括:
获取模块,用于获取待归类歌曲的歌曲标签;
第一确定模块,用于确定所述歌曲标签的价值评分,所述价值评分与所述歌曲标签的频次差异值呈正相关,所述频次差异值是指所述歌曲标签在参考歌曲集合和全盘歌曲集合中出现频次的差值,所述参考歌曲集合为已归为一类的歌曲集合,所述全盘歌曲集合为未归为一类的歌曲的集合;
第二确定模块,用于根据所述歌曲标签的价值评分,确定所述待归类歌曲的归类结果,所述归类结果用于指示所述待归类歌曲是否归属于所述参考歌曲集合。
9.一种服务器,其特征在于,所述服务器包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器执行所述存储器中的可执行指令来实现权利要求1-7任一项所述的歌曲归类方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被计算机执行时实现权利要求1-7任一所述歌曲归类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011043472.7A CN112163116A (zh) | 2020-09-28 | 2020-09-28 | 歌曲归类方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011043472.7A CN112163116A (zh) | 2020-09-28 | 2020-09-28 | 歌曲归类方法、装置及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112163116A true CN112163116A (zh) | 2021-01-01 |
Family
ID=73861875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011043472.7A Pending CN112163116A (zh) | 2020-09-28 | 2020-09-28 | 歌曲归类方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112163116A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120179637A1 (en) * | 2005-12-14 | 2012-07-12 | Yun-Fang Juan | Prediction of User Response to Invitations in a Social Network System Based on Keywords in the User's Profile |
CN105868372A (zh) * | 2016-03-31 | 2016-08-17 | 广州酷狗计算机科技有限公司 | 标签分配方法及装置 |
CN108629047A (zh) * | 2018-05-14 | 2018-10-09 | 平安科技(深圳)有限公司 | 一种歌曲清单生成方法及终端设备 |
CN109063069A (zh) * | 2018-07-23 | 2018-12-21 | 天翼爱音乐文化科技有限公司 | 歌曲标签确定方法、装置、计算机设备和可读存储介质 |
CN110188356A (zh) * | 2019-05-30 | 2019-08-30 | 腾讯音乐娱乐科技(深圳)有限公司 | 信息处理方法及装置 |
-
2020
- 2020-09-28 CN CN202011043472.7A patent/CN112163116A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120179637A1 (en) * | 2005-12-14 | 2012-07-12 | Yun-Fang Juan | Prediction of User Response to Invitations in a Social Network System Based on Keywords in the User's Profile |
CN105868372A (zh) * | 2016-03-31 | 2016-08-17 | 广州酷狗计算机科技有限公司 | 标签分配方法及装置 |
CN108629047A (zh) * | 2018-05-14 | 2018-10-09 | 平安科技(深圳)有限公司 | 一种歌曲清单生成方法及终端设备 |
CN109063069A (zh) * | 2018-07-23 | 2018-12-21 | 天翼爱音乐文化科技有限公司 | 歌曲标签确定方法、装置、计算机设备和可读存储介质 |
CN110188356A (zh) * | 2019-05-30 | 2019-08-30 | 腾讯音乐娱乐科技(深圳)有限公司 | 信息处理方法及装置 |
Non-Patent Citations (2)
Title |
---|
洪军 等: "一种基于Web挖掘的音乐流派分类方法", 微计算机信息, vol. 25, no. 9, 31 December 2009 (2009-12-31), pages 168 - 169 * |
郝建林 等: "基于用户评论的自动化音乐分类方法", 计算机系统应用, vol. 27, no. 1, 31 December 2018 (2018-12-31), pages 154 - 161 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106897428B (zh) | 文本分类特征提取方法、文本分类方法及装置 | |
US20180107933A1 (en) | Web page training method and device, and search intention identifying method and device | |
CN107463605B (zh) | 低质新闻资源的识别方法及装置、计算机设备及可读介质 | |
EP2657884B1 (en) | Identifying multimedia objects based on multimedia fingerprint | |
US7539934B2 (en) | Computer-implemented method, system, and program product for developing a content annotation lexicon | |
CN110290199B (zh) | 内容推送方法、装置及设备 | |
CN111125658A (zh) | 识别欺诈用户的方法、装置、服务器和存储介质 | |
CN110728526A (zh) | 地址识别方法、设备以及计算机可读介质 | |
CN112612887A (zh) | 日志处理方法、装置、设备和存储介质 | |
EP4273737A1 (en) | Language labeling method and apparatus, and computer device and storage medium | |
WO2023024408A1 (zh) | 用户特征向量确定方法、相关设备及介质 | |
CN111507400A (zh) | 应用分类方法、装置、电子设备以及存储介质 | |
CN112632280B (zh) | 文本分类方法、装置、终端设备及存储介质 | |
CN113515593A (zh) | 基于聚类模型的话题检测方法、装置和计算机设备 | |
CN110569447B (zh) | 一种网络资源的推荐方法、装置及存储介质 | |
CN111488400B (zh) | 数据分类方法、装置和计算机可读存储介质 | |
CN111738290A (zh) | 图像检测方法、模型构建和训练方法、装置、设备和介质 | |
CN114444514B (zh) | 语义匹配模型训练、语义匹配方法及相关装置 | |
CN106294292B (zh) | 章节目录筛选方法及装置 | |
CN112163116A (zh) | 歌曲归类方法、装置及计算机可读存储介质 | |
CN113656575B (zh) | 训练数据的生成方法、装置、电子设备及可读介质 | |
CN113127636B (zh) | 一种文本聚类类簇中心点选取方法及装置 | |
CN111090743B (zh) | 一种基于词嵌入和多值形式概念分析的论文推荐方法及装置 | |
CN113392208A (zh) | It运维故障处理经验积累的方法、装置及存储介质 | |
CN113052632B (zh) | 一种广告流量数据的识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |