CN111090771A

CN111090771A - 歌曲搜索方法、装置及计算机存储介质

Info

Publication number: CN111090771A
Application number: CN201911051673.9A
Authority: CN
Inventors: 程艺波; 郝志新; 潘树燊; 邱津
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-05-01
Anticipated expiration: 2039-10-31
Also published as: CN111090771B

Abstract

本申请公开了一种歌曲搜索方法、装置及计算机存储介质，属于信息处理领域。所述方法包括：获取用户包含有搜索语句的歌曲搜索请求；根据语义标签词典确定搜索语句中的关键词；确定关键词与歌曲库中所有歌曲的标签词中每个标签词的匹配度；并根据关键词与歌曲库中所有歌曲的标签词中每个标签词的匹配度，从歌曲库中选取至少一首歌曲，将选取的歌曲作为歌曲搜索结果返回给用户。本申请通过获取歌曲库中的多个歌单的歌单信息，对歌单信息进行分词和筛选，得到语义标签词典。并基于语义标签词典从搜索语句中确定至少一个关键词，进而根据关键词在歌曲库中选取多首歌曲，选取的歌曲更符合用户的语义搜索意图。

Description

歌曲搜索方法、装置及计算机存储介质

技术领域

本申请涉及信息处理领域，特别涉及一种歌曲搜索方法、装置及计算机存储介质。

背景技术

音乐平台一般具有播放歌曲和搜索歌曲的功能，当用户在音乐平台上搜索歌曲时，音乐平台的后台服务器可以通过分析用户的搜索语句，向用户返回与搜索语句匹配的歌曲。

相关技术中，用户在音乐平台上输入搜索语句并点击搜索按钮后，可以触发终端向音乐平台的后台服务器发送歌曲搜索请求，该歌曲搜索请求携带用户输入的关键词。音乐平台的后台服务器接收到该歌曲搜索请求后，可以先对该搜索语句进行分词，并从分词结果中提取关键词，根据关键词与曲库中歌曲的匹配度较高的歌曲，将歌曲搜索结果返回给用户

相关技术中只是将从搜索语句中提取的关键词与歌曲的基本信息进行匹配，因此上述搜索算法的搜索准确度较低，且很难契合用户的语义搜索意图。

发明内容

本申请实施例提供了一种歌曲搜索方法，可以提高歌曲搜索的准确度，使得召回的歌曲更符合用户的搜索请求。所述技术方案如下：

第一方面，提供了一种歌曲搜索方法，所述方法包括：

获取用户的歌曲搜索请求，所述歌曲搜索请求包含搜索语句；

根据语义标签词典从所述搜索语句中确定至少一个关键词，所述语义标签词典中的标签词是从多个歌单的歌单信息中提取得到；

确定所述至少一个关键词中的每个关键词与歌曲资源库中所有歌曲的标签词中每个标签词的匹配度，每首歌曲的标签词是根据所述语义标签词典从每首歌曲所属歌单的歌单信息中提取得到；

根据所述至少一个关键词中的每个关键词与歌曲库中所有歌曲的标签词中每个标签词的匹配度，从所述所有歌曲的标签词中确定与所述至少一个关键词中任一关键词的匹配度满足预设匹配条件的至少一个标签词；

从所述歌曲库中选取所述至少一个标签词中每个标签词对应的歌曲，将选取的歌曲作为歌曲搜索结果返回给所述用户。

可选地，所述将选取的歌曲作为歌曲搜索结果返回给所述用户，包括：

根据选取的歌曲中每首歌曲与对应标签词之间的关联程度，对所述选取的歌曲进行排序，每首歌曲与对应标签词之间的关联程度用于指示根据所述每首歌曲所属的、具有所述每首歌曲对应标签词的歌单播放所述每首歌曲的概率；

将排序后的歌曲作为歌曲搜索结果返回给所述用户。

可选地，所述根据选取的歌曲中每首歌曲与对应标签词之间的关联程度，对所述选取的歌曲进行排序之前，还包括：

根据所述语义标签词典和所述多个歌单的歌单信息，确定每个歌单的标签词；

根据所述多个歌单的标签词和每个歌单包括的歌曲，确定所述多个歌单中目标歌曲的标签词，所述目标歌曲为所述多个歌单中的任一歌曲，所述目标歌曲的标签词包括所述目标歌曲所属的每个歌单的标签词；

对于所述目标歌曲的任一标签词，确定所述任一标签词所属歌单的播放量；

根据所述任一标签词所属歌单的播放量，确定所述目标歌曲与所述任一标签词之间的关联程度。

可选地，所述根据语义标签词典对所述搜索语句进行分词处理之前，还包括：

对所述多个歌单的歌单信息进行字符切分，得到多个字符串；

确定所述多个字符串中每个字符串的分词指标，所述分词指标包括词频、左右信息熵和互信息；

根据所述多个字符串的分词指标，从所述多个字符串中选取满足预设分词指标条件的字符串，将选取的字符串确定为多个候选词；

根据所述多个候选词，确定所述语义标签词典。

可选地，所述根据所述多个字符串的分词指标，从所述多个字符串中选取满足预设分词指标条件的字符串，将选取的字符串确定为多个候选词，包括：

按照预设筛选规则，对所述多个字符串进行筛选；

根据筛选后的字符串的词频，对筛选后的字符串进行分类，得到高频词集合和低频词集合；

根据所述高频词集合中每个高频词的左右信息熵和互信息，从所述高频词集合中选取满足第一预设条件的高频词，以及根据所述低频词集合中每个低频词的左右信息熵和互信息，从所述低频词集合中选取满足第二预设条件的低频词；

从选取的高频词和低频词中筛选掉音乐停用词和无意义分词；

将筛选后的高频词和低频词，确定为所述多个候选词。

可选地，所述根据所述高频词集合中每个高频词的左右信息熵和互信息，从所述高频词集合中选取满足第一预设条件的高频词，以及根据所述低频词集合中每个低频词的左右信息熵和互信息，从所述低频词集合中选取满足第二预设条件的低频词之前，还包括：

对于所述高频词集合中的任一高频词，若所述任一高频词的第一比值和第二比值中的最小值小于第一阈值，左信息熵和右信息熵均大于第二阈值，且互信息大于第三阈值，则确定所述任一高频词满足所述第一预设条件，所述第一比值是指左信息熵与右信息熵之间的比值，所述第二比值是指右信息熵和左信息熵之间的比值；

对于所述低频词集合中的任一低频词，若所述任一低频词的第一比值和第二比值中的最小值小于第四阈值，左信息熵和右信息熵均大于第五阈值，且互信息大于第六阈值，则确定所述任一低频词满足所述第二预设条件。

可选地，所述根据所述多个候选词，确定所述语义标签词典，包括：

对所述多个歌单的歌单信息进行分词，根据所述多个候选词组成的候选词表，从分词结果中提取多个第一分词；

根据音乐停用词表，对所述多个第一分词进行筛选，得到多个第二分词；

确定所述多个第二分词中的每个第二分词与所述候选词表中的每个候选词的相似度；

从所述多个第二分词中选取与所述候选词表中的任一候选词的相似度大于相似度阈值的第二分词，得到至少一个种子词；

根据所述至少一个种子词和所述候选词表，构建所述语义标签词典。

可选地，所述确定所述多个第二分词中的每个第二分词与所述候选词表中的每个候选词的相似度之前，还包括：

根据所述多个第二分词和预设语料中的分词，对待训练词向量模型进行训练，得到词向量模型，所述词向量模型用于确定任一第二分词的词向量；

所述确定所述多个第二分词中的每个第二分词与候选词表中的每个候选词的相似度，包括：

对于所述多个第二分词中的任一第二分词，通过所述词向量模型确定所述任一第二分词的词向量；

确定所述任一第二分词的词向量与所述候选词表中每个候选词的词向量之间的相似度，所述候选词表中每个候选词的词向量是通过所述词向量模型确定得到；

根据所述任一第二分词的词向量与目标候选词的词向量之间的相似度，确定所述任一第二分词与所述目标候选词的相似度，所述目标候选词为所述候选词表中的任一候选词。

第二方面，提供了一种歌曲搜索装置，所述装置包括：

获取模块，用于获取用户的歌曲搜索请求，所述歌曲搜索请求包含搜索语句；

第一确定模块，用于根据语义标签词典从所述搜索语句中确定至少一个关键词，所述语义标签词典中的标签词是从多个歌单的歌单信息中提取得到；

第二确定模块，用于确定所述至少一个关键词中的每个关键词与歌曲资源库中所有歌曲的标签词中每个标签词的匹配度，每首歌曲的标签词是根据所述语义标签词典从每首歌曲所属歌单的歌单信息中提取得到；

第三确定模块，用于根据所述至少一个关键词中的每个关键词与歌曲库中所有歌曲的标签词中每个标签词的匹配度，从所述所有歌曲的标签词中确定与所述至少一个关键词中任一关键词的匹配度满足预设匹配条件的至少一个标签词；

第一选取模块，用于从所述歌曲库中选取所述至少一个标签词中每个标签词对应的歌曲，将选取的歌曲作为歌曲搜索结果返回给所述用户。

可选地，所述第一选取模块，还包括：

排序子模块，用于根据选取的歌曲中每首歌曲与对应标签词之间的关联程度，对所述选取的歌曲进行排序，每首歌曲与对应标签词之间的关联程度用于指示根据所述每首歌曲所属的、具有所述每首歌曲对应标签词的歌单播放所述每首歌曲的概率；

返回子模块，用于将排序后的歌曲作为歌曲搜索结果返回给所述用户。

可选地，所述装置，还包括：

第四确定模块，用于根据所述语义标签词典和所述多个歌单的歌单信息，确定每个歌单的标签词；

第五确定模块，用于根据所述多个歌单的标签词和每个歌单包括的歌曲，确定所述多个歌单中目标歌曲的标签词，所述目标歌曲为所述多个歌单中的任一歌曲，所述目标歌曲的标签词包括所述目标歌曲所属的每个歌单的标签词；

第六确定模块，用于对于所述目标歌曲的任一标签词，确定所述任一标签词所属歌单的播放量；

第七确定模块，用于根据所述任一标签词所属歌单的播放量，确定所述目标歌曲与所述任一标签词之间的关联程度。

可选地，所述装置，还包括：

切分模块，用于对所述多个歌单的歌单信息进行字符切分，得到多个字符串；

第八确定模块，用于确定所述多个字符串中每个字符串的分词指标，所述分词指标包括词频、左右信息熵和互信息；

第二选取模块，用于根据所述多个字符串的分词指标，从所述多个字符串中选取满足预设分词指标条件的字符串，将选取的字符串确定为多个候选词；

第九确定模块，用于根据所述多个候选词，确定所述语义标签词典。

可选地，所述第二选取模块，包括：

第一筛选子模块，用于按照预设筛选规则，对所述多个字符串进行筛选；

分类子模块，用于根据筛选后的字符串的词频，对筛选后的字符串进行分类，得到高频词集合和低频词集合；

第一选取子模块，用于根据所述高频词集合中每个高频词的左右信息熵和互信息，从所述高频词集合中选取满足第一预设条件的高频词，以及根据所述低频词集合中每个低频词的左右信息熵和互信息，从所述低频词集合中选取满足第二预设条件的低频词；

删除子模块，用于从选取的高频词和低频词中筛选掉音乐停用词和无意义分词；

第一确定子模块，用于将筛选后的高频词和低频词，确定为所述多个候选词。

可选地，所述第二选取模块，还包括：

第二确定子模块，用于对于所述高频词集合中的任一高频词，若所述任一高频词的第一比值和第二比值中的最小值小于第一阈值，左信息熵和右信息熵均大于第二阈值，且互信息大于第三阈值，则确定所述任一高频词满足所述第一预设条件，所述第一比值是指左信息熵与右信息熵之间的比值，所述第二比值是指右信息熵和左信息熵之间的比值；

第三确定子模块，用于对于所述低频词集合中的任一低频词，若所述任一低频词的第一比值和第二比值中的最小值小于第四阈值，左信息熵和右信息熵均大于第五阈值，且互信息大于第六阈值，则确定所述任一低频词满足所述第二预设条件。

可选地，所述第九确定模块，包括：

分词子模块，用于对所述多个歌单的歌单信息进行分词，根据所述多个候选词组成的候选词表，从分词结果中提取多个第一分词；

第二筛选子模块，用于根据音乐停用词表，对所述多个第一分词进行筛选，得到多个第二分词；

第四确定子模块，用于确定所述多个第二分词中的每个第二分词与所述候选词表中的每个候选词的相似度；

第二选取子模块，用于从所述多个第二分词中选取与所述候选词表中的任一候选词的相似度大于相似度阈值的第二分词，得到至少一个种子词；

构建子模块，用于根据所述至少一个种子词和所述候选词表，构建所述语义标签词典。

可选地，所述第九确定模块，还包括：

训练子模块，用于根据所述多个第二分词和预设语料中的分词，对待训练词向量模型进行训练，得到词向量模型，所述词向量模型用于确定任一第二分词的词向量；

所述第四确定子模块，包括：

第一确定子单元，用于对于所述多个第二分词中的任一第二分词，通过所述词向量模型确定所述任一第二分词的词向量；

第二确定子单元，用于确定所述任一第二分词的词向量与所述候选词表中每个候选词的词向量之间的相似度，所述候选词表中每个候选词的词向量是通过所述词向量模型确定得到；

第三确定子单元，用于根据所述任一第二分词的词向量与目标候选词的词向量之间的相似度，确定所述任一第二分词与所述目标候选词的相似度，所述目标候选词为所述候选词表中的任一候选词。

第三方面，提供了一种歌曲搜索装置，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述第一方面所述任一方法的步骤。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，所述指令被处理器执行时实现上述第一方面所述任一方法的步骤。

第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述任一方法的步骤。

本申请实施例提供的技术方案带来的有益效果至少包括：

本申请通过语义标签词典确定搜索语句中的关键词，然后确定每个关键词与歌曲库中所有歌曲的标签词中每个标签词的匹配度，再根据每个关键词与歌曲库中所有歌曲的标签词中每个标签词的匹配度，从歌曲库中选取至少一首歌曲作为歌曲搜索结果返回给用户。其中，搜索语句中的关键词是根据语义标签词典确定的，而语义标签词典中的标签词是从多个歌单的歌单信息中提取得到，因此确定的关键词既能表达用户的语义搜索意图，又不受搜索语句中的错别字和无意义文本等噪声词汇的干扰。另外，由于歌曲库中每首歌曲的标签词是根据语义标签词典从每首歌曲所属歌单的歌单信息中提取得到，且歌曲的标签词可以很好的体现歌曲的语义特征，因此在根据关键词与歌曲的标签词的匹配度进行歌曲搜索时，搜索得到的歌曲更契合用户的语义搜索意图，提高了搜索算法的搜索准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种歌曲搜索方法的实施环境示意图；

图2是本申请实施例提供的一种确定语义标签词典的方法流程图；

图3是本申请实施例提供的一种确定歌曲与标签词之间的关联程度的方法流程图；

图4是本申请实施例提供的一种歌曲搜索方法的方法流程图；

图5是本申请实施例提供的一种歌曲搜索装置的结构示意图；

图6是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在对本申请实施例提供的一种读取数据的方法进行解释说明之前，先对本申请实施例的应用场景进行解释说明。

相关技术中，在根据关键词与歌曲的基本信息之间的匹配度进行歌曲搜索时，通常具有以下问题：

1、当用户在音乐平台进行歌曲搜索时，通过对用户的搜索请求中的搜索语句进行分词，并根据从分词结果中提取的关键词与歌曲库中歌曲的基本信息进行匹配。通过这种方法匹配得到的召回结果虽然与用户原始请求之间满足显相关性，但由于从搜索语句中提取的关键词中会包含大量的无关信息，因此基于上述方式提取得到的关键词，在歌曲库中匹配召回的歌曲过于生硬，难以切中用户的真实搜索意图。

2、由于歌曲的基本信息有限，对包含多个关键词的搜索语句难以通过简单的歌曲基本信息匹配召回恰当的结果。同时随着用户的搜索请求包含的搜索语句变得越长越复杂，通过分词得到的关键词就会越多，仅通过基本的歌曲信息，很难找到精确匹配的结果，并且匹配结果容易受到原始搜索语句中的噪声词汇(如错别字、无意义文本等)的干扰。

3、用于关键词匹配的歌曲基本信息无法体现出歌曲本身的语义特征，如歌曲的风格流派、情感、场景、社交传播媒体等属性通常无法明显的体现在歌曲的基本信息中，而这些歌曲分类信息往往才是用户语义搜索意图需要关注的。

4、为了契合用户的语义搜索意图，就需要对歌曲库中每首歌曲的分类信息进行标注，但目前对歌曲库中每首歌曲的分类信息主要采取的标注方法是人工标注。然而语义的体会往往因人而异，具有很强的主观性和个人特点，依靠人工标注的方式全面分析歌曲库信息固然有极高的准确性，但需要花费大量的时间与人力。而且从音频与歌词中能够直接映射到歌曲上的语义标签并不全面，一些更丰富的歌曲属性，如场景、传播媒体等属性，单从音频与歌词中难以全面获取。

基于上述种种缺陷，本申请提供了一种歌曲搜索方法，主要是通过获取多个歌单数据，利用语义标注的方式，将歌单中所包含的语义信息映射到歌曲上，一方面可以通过提供语义标签词典，协助搜索引擎更准确地理解用户搜索请求携带的搜索语句中的语义意图，另一方面通过建立语义标签词典中标签词与歌曲之间的匹配程度，可以更自然地召回用户想要的搜索结果。同时，利用歌单信息分析得到的多个标签词进行自动化标注，显著减少人工维护音乐标签库的工作量的基础上，还能够弥补音频和歌词等音乐原始数据无法全面反映歌曲语义特征的缺陷，具有很好的可用性。

接下来，对本申请实施例涉及的实施环境进行解释说明。

图1是本申请实施例提供的一种歌曲搜索的系统示意图，如图1所示，该系统100包括服务器101和多个用户端102，其中，用户端102可以为任一安装有音乐应用的电子设备，服务器101可以为音乐应用的后台服务器。任一用户端102和服务器101之间通过有线或者无线的方式连接以进行通信。对于多个用户端102中任一用户端102，当该用户端102在音乐应用上输入搜索语句并点击搜索按钮后，可以向音乐应用的后台服务器101发送歌曲搜索请求，该歌曲搜索请求包含有搜索语句。服务器101接收该搜索请求，并从搜索语句中提取关键词，再根据关键词与歌曲库中所有歌曲的标签词中每个标签词的匹配度，从歌曲库中选取至少一首歌曲，将选取的歌曲作为歌曲搜索结果返回给用户端102。

在本申请实施例中，每个用户端102可以为手机、台式计算机、笔记本电脑等电子设备，图1中仅仅是以3个手机举例进行说明，并不构成对本申请实施例的限定。

因为本申请主要关注的是包含语义意图的搜索请求，在这种搜索场景下，如何准确的理解用户的语义搜索意图，是准确召回相关歌曲结果的关键。因而，本申请的主要目的是：通过分析用户歌单数据构建语义标签词典，并根据语义标签词典分析歌曲与标签词之间的关联，如此，在召回歌曲时可以利用标签词与歌曲的匹配程度来代替简单的关键词匹配，使得召回的歌曲更符合用户的语义搜索意图。

本申请实施例中，当服务器接收到的歌曲搜索请求时，基于语义标签词典确定该歌曲搜索请求所携带的搜索语句中的至少一个关键词。因此在进行歌曲搜索之前，服务器需要分析歌曲库中的多个歌单的歌单信息，根据从歌单信息中提取的分词来构建语义标签词典。其中，语义标签词典包括多个标签词，每个标签词是从多个歌单的歌单信息中提取得到。下面先对确定语义标签词典的过程进行解释说明。

图2是本申请实施例提供的一种确定语义标签词典的方法流程图，该方法应用于图1所示的服务器，该方法包括如下步骤：

步骤201：对多个歌单的歌单信息进行字符切分，得到多个字符串。

通常，音乐平台上存在有很多个人用户和专业评审建立的歌单，歌单创建人通常会根据个人喜好和歌曲特征对歌曲进行分类，不同的歌单通常具有不同的分类特征。用户可以通过自定义的歌单信息来描述分类特征，从而与其他歌单进行区分，也即是，歌单既包含了基本的歌曲数据，同时也包含了用户自发添加的歌单信息等可以反映出歌单特征的附加信息。

其中，歌单信息包括歌单名称、歌单的歌曲流派、歌单的情感、以及适合播放的场景中的至少一种。优选地，歌单信息为歌单名称。

其中，该多个歌单可以为个人用户建立的歌单，也可以为专业评审建立的歌单。歌单信息用于描述歌单中歌曲的分类特征。

其中，字符串为包含至少一个字的文本组合，也即是字符串可以为一个字，也可以由多个字组成，比如，一个字符串由1-5个字组成。

需要说明的是，在对多个歌单的歌单信息进行字符切分之前，可以对歌曲库中的所有歌单进行筛选，确定多个优质歌单，将这多个优质歌单确定为待处理的多个歌单，通过分析更有代表性的优质歌单来确定标签词，减少了数据处理量。当然，也可以不用对歌单进行筛选，直接获取歌曲库中的所有歌单作为待处理的多个歌单，如此，对歌单分析更全面。

其中，确定多个优质歌单的实现过程可以为：对于歌曲库中的所有歌单，当歌单的播放量大于播放量阈值，或者歌单的创建者在音乐平台的等级高于某一等级，或者歌单的收藏量大于收藏量阈值时，将该歌单确定为优质歌单。

其中，上述播放量阈值、某一等级和收藏量阈值均为在筛选歌单时的预设数值或等级，目的是为了筛选出优质歌单，以便于根据优质歌单确定更符合该音乐平台用户音乐兴趣的标签词。

作为一个示例，在对多个歌单的歌单信息进行字符切分时，可以采用N-gram语言模型来进行字级别的分词。其中，N-gram是大词汇连续语音识别中常用的一种语言模型，对中文而言，它可以称之为汉语语言模型(CLM,Chinese Language Model)。该模型基于这样一种假设，第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句话的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。其中，在进行分词时，可以自定义分词窗口的大小，进而根据分词窗口的大小来确定分词后字符串的位数。

比如，假设歌单信息为歌单名称，歌单A的歌单名称为：关于我爱中国的校园歌曲，且定义的分词窗口为2，则通过N-gram分词得到的字符串为：“关于”、“于我”、“我爱”、“爱中”、“中国”、“国的”、“的校”、“校园”、“园歌”、“歌曲”。

需要说明的是，在对多个歌单的歌单信息进行字符切分，可以采用上述N-gram分词，得到多个字符串，也可以采用其他分词方法，本申请对此不作限定。

步骤202：确定多个字符串中每个字符串的分词指标，分词指标包括词频、左右信息熵和互信息。

其中，词频用于表示一个词出现的频率，可以通过统计多个字符串中每个字符串在多个歌单信息中出现的次数来确定每个字符串的词频。比如，对于分词后的字符串“校园”和“园歌”，“校园”在多个歌单信息中出现了50次，则“校园”的词频为50；“园歌”在多个歌单信息中出现了2次，则“园歌”的词频为2。

左右信息熵包括左信息熵和右信息熵，反映的是每个字符串的外部信息，即这个分词后的字符串是否有丰富的左右搭配。比如，统计一个字符串左边所有可能的词以及词频，根据该字符串左边所有可能的词和词频计算该字符串的左信息熵。统计一个字符串右边所有可能的词以及词频，根据该字符串右边所有可能的词和词频计算该字符串的左信息熵。如果一个字符串的左信息熵为0，则说明该字符串只有这一种组合。左右信息熵一般用于统计方法的新词发现，计算一对词之间的左熵和右熵，熵越大，越说明是一个新词。因为熵表示不确定性，所以熵越大，不确定性越大，也就是这对词左右搭配越丰富。

示例的，左信息熵可以通过下述公式(1)计算得到，右信息熵可以通过下述公式(2)计算得到：

其中，W表示一个字符串，E_L(W)表示该字符串的左信息熵，P(aW|W)表示该字符串左边搭配一个词后组成的新词的词频与该字符串本身词频的比值。E_R(W)表示该字符串的右信息熵，P(bW|W)表示该字符串右边边搭配一个词后组成的新词的词频与该字符串本身词频的比值。

比如，在某语料中统计字符串“计算”(词频为31)的左信息熵和右信息熵，设在有序集合Ω中的相关字符串及其词频为：“计算方”(词频为6)、“计算工”(词频为7)、“计算机”(词频为10)、“计算量”(词频为8)、“理计算”(词频为14)、“用计算”(词频为13)和“展计算”(词频为4)。

则“计算”的右信息熵为：

“计算”的左信息熵为：

由上述左右信息熵可知，“计算”的左边搭配更丰富，通过在“计算”的左边增加其他字符串可以组成更多的词。

其中，互信息用来衡量词搭配是否合理。比如，对于分词后的字符串“我爱”和“爱中”这两个搭配，直观上讲“我爱”更为合理，即“我”和“爱”凝固得更紧一些。在计算语言学中，PMI(Pointwise mutual information，互信息)被用来度量词搭配与关联性，PMI的计算公式如下述公式(3)所示。

其中，PMI(X,Y)表示字符串X和字符串Y之间的相关性，也即是字符串X和字符串Y的互信息，P(X,Y)表示字符串X和字符串Y构成的词对应的词频与所有组合词的个数的比值，P(X)表示字符串X的词频与所有词的个数比值，P(Y)表示字符串Y的词频与所有词的个数的比值。

互信息值越高，表明字符串X和字符串Y相关性越高，则字符串X和字符串Y组成短语的可能性越大；反之，互信息值越低，字符串X和字符串Y之间相关性越低,则字符串X和字符串Y之间组成短语的可能性越小。

比如，“电影+院”的词频为2，而所有组合词中二阶短语一共有191个，所以上述公式(3)中的P(X,Y)＝2/191。同理，可以求出P(X)P(Y)。

步骤203：根据多个字符串的分词指标，从多个字符串中选取满足预设分词指标条件的字符串，将选取的字符串确定为多个候选词。

其中，分词指标包括但不限于上述步骤202中的词频、左右信息熵和互信息，也可以根据实际需要增加其他指标来确定候选词。预设分词指标条件为提前设定的一些筛选阈值，满足这些筛选阈值的字符串将被确定为候选词。

下面对确定候选词的过程进行解释说明，在一种可能的实现方式中，步骤203的可以通过以下步骤来实现：

1)按照预设筛选规则，对多个字符串进行筛选。

需要说明的是，该预设筛选规则可以预先设置，比如可以为预先设置的人工运营规则，在对字符串进行筛选时可以结合人工运营规则，过滤掉包含某些无意义词或敏感词的字符串。

作为一个示例，可以预先根据历史人工筛选规则，将无意义词和敏感词生成相应的无意义词列表和敏感词列表，然后根据无意义词列表和敏感词列表对多个字符串进行筛选。

比如，无意义词列表包括多个“神级”、“重磅”、“殿堂级”等夸大个人主观感受的自定义词汇，但对于确定歌曲的分类信息并没有实际意义，因此在字符串筛选时需要将其过滤掉。同理，敏感词列表多个涉及黄赌毒的词汇，对于这些敏感词汇，在字符串筛选时也需要将其过滤掉。

2)根据筛选后的字符串的词频，对筛选后的字符串进行分类，得到高频词集合和低频词集合。

对于筛选后的多个字符串，可以根据预设的词频阈值，将多个字符串分为高频词集合和低频词集合，比如将词频大于词频阈值的字符串确定为高频词，将词频小于词频阈值的字符串确定为低频词。

其中，该词频阈值可以预先设置。假设该词频阈值为500，若字符串A“中国”的词频为600，字符串B“于我”的词频为50，则将字符串A“中国”加入高频词集合，将字符串B“于我”加入低频词集合。

3)根据高频词集合中每个高频词的左右信息熵和互信息，从高频词集合中选取满足第一预设条件的高频词，以及根据低频词集合中每个低频词的左右信息熵和互信息，从低频词集合中选取满足第二预设条件的低频词。

其中，第一预设条件和第二预设条件可以根据左右信息熵和互信息进行设置。比如，对于高频词集合中的任一高频词，若任一高频词的第一比值和第二比值中的最小值小于第一阈值，左信息熵和右信息熵均大于第二阈值，且互信息大于第三阈值，则确定任一高频词满足第一预设条件。对于低频词集合中的任一低频词，若任一低频词的第一比值和第二比值中的最小值小于第四阈值，左信息熵和右信息熵均大于第五阈值，且互信息大于第六阈值，则确定任一低频词满足第二预设条件。

需要说明的是，上述第一阈值-第六阈值可以预先设定。比如，第一阈值为1.5，第二阈值为2，第三阈值为50，第四阈值为1.5，第五阈值为3，第六阈值为40，

作为一个示例，对于加入高频词集合的任一高频词，根据该高频词的左信息熵、右信息熵和互信息这3个指标值，判断该高频词是否满足第一预设条件。同理，对于加入低频词集合中的任一低频词，根据该低频词的左信息熵、右信息熵和互信息这3个指标值，判断该低频词是否满足第二预设条件。

示例性地，在选取满足第一预设条件的高频词时，第一预设条件可以预先设定。比如，设定的第一预设条件为：min(左信息熵/右信息熵，右信息熵/左信息熵)<1.5and左信息熵>2and右信息熵>2and互信息>50。

同理，在选取满足第二预设条件的低频词时，第二预设条件也可以预先设定，比如，设定的第二预设条件为：min(左信息熵/右信息熵，右信息熵/左信息熵)<1.5and左信息熵>3and右信息熵>3and互信息>40。

4)从选取的高频词和低频词中筛选掉音乐停用词和无意义分词。

需要说明的是，音乐停用词表是包括包括“歌”、“歌曲”和“神曲”等音乐停用词的一个列表，音乐停用词表中的音乐停用词仅仅用于指示用户在音乐平台听歌曲时加载的歌曲数据的客观属性，对于确定歌曲的分类并无实际意义，因此需要在选取的高频词和低频词中删除掉音乐停用词。

此外，对于起始获取的高频词和低频词中，可能还存在一些无意义的分词，需要结合人工运营规则对上述高频词和低频词再进行筛选，无意义的分词包括“软萌”、“神清气爽”、“元气满满”等歌单创建者加入的个人主观感受或自我标记的个性化词汇，这些词汇并不能准确表述每首歌曲的歌曲分类信息，所以需要在获取的高频词和低频词中删除上述无意义的分词。

此外，在选取的高频词和低频词中筛选掉音乐停用词和无意义分词后，可以将将筛选后的高频词组成高频词表，筛选后的低频词组成低频词表。

5)将筛选后的高频词和低频词，确定为多个候选词。

基于高频词表和低频词表，构建候选词表，也即是，将高频词表中的高频词和低频词表低频词直接确定为候选词表中的候选词。

步骤204：根据多个候选词，确定语义标签词典。

需要说明的是，在一种可能的实现方式中，可以直接将确定的多个候选词作为多个标签词，根据多个标签词构建语义标签词典。

在另一种可能的实现方式中，可以结合多个候选词对歌单信息再次进行分词和筛选处理，进而根据筛选结果和多个候选词确定语义标签词典。下面对根据筛选结果和多个候选词确定语义标签词典的具体实施过程进行解释说明，步骤204可以通过以下步骤来实现：

1)对多个歌单的歌单信息进行分词，根据多个候选词组成的候选词表，从分词结果中提取多个第一分词。

也即是，对于多个歌单中的每一个的歌单信息，可以结合候选词表，从歌单信息中提取至少一个第一分词。

比如，候选词表中包括“关于”、“中国”、“校园”、“我爱”、“学生”五个候选词，假设此时需要进行分词的歌单信息为：关于我爱中国的电影歌曲且适合小学生的学唱，则结合候选词表，且设定分词窗口为2，对上述歌单信息进行N-gram分词得到的字符串为：“关于”、“我爱”、“中国”、“的电”、“电影”、“歌曲”、“适合”、“学生”和“学唱”。

2)根据音乐停用词表，对多个第一分词进行筛选，得到多个第二分词。

示例性地，结合音乐停用词表中的音乐停用词，对上述多个字符串进行筛选，在删除“歌曲”这一字符串后得到的多个分词为：“关于”、“我爱”、“中国”、“电影”、“适合”、“学生”和“学唱”。

3)确定多个第二分词中的每个第二分词与候选词表中的每个候选词的相似度。

作为一个示例，可以根据分词的词向量之间的相似度来确定分词之间的相似度，则在确定多个分词中的每个分词与候选词表中的每个候选词的相似度之前，可以根据多个分词和预设语料中的分词，对待训练词向量模型进行训练，得到词向量模型，词向量模型用于确定任一分词的词向量。

其中，训练词向量模型的实现方式为：根据多个分词和预设语料中的分词，将多个分词和预设语料中的分词依次输入待训练词向量模型，待训练的词向量模型可以学习多个分词和预设语料中的分词中分词之间的逻辑关系和语义联系。其中，预设语料为互联网资源中的多个文本资源。

通过上述方式对待训练词向量模型进行训练，使得训练词向量模型在生成词向量时可以保证生成的两个词向量之间的距离满足者两个词的逻辑关系和语义联系。当待训练词向量生成的所有词向量之间距离的准确度大于准确度阈值时，将待训练的词向量模型确定词向量模型，该词向量模型用于确定任一分词和候选词表中每个候选词的词向量。其中，上述准确度阈值可以预先设定，比如，可以设定准确度阈值为85％。

在训练得到词向量模型之后，对于多个第二分词中的任一第二分词，通过词向量模型确定任一第二分词的词向量，再确定任一第二分词的词向量与候选词表中每个候选词的词向量之间的相似度，最终根据任一第二分词的词向量与目标候选词的词向量之间的相似度，确定任一第二分词与目标候选词的相似度。

其中，候选词表中每个候选词的词向量是通过词向量模型确定得到，上述目标候选词为候选词表中的任一候选词。

4)从多个第二分词中选取与候选词表中的任一候选词的相似度大于相似度阈值的分词，得到至少一个种子词。

其中，相似度阈值为预先设定的一个数值，比如，相似度阈值为80％。确定多个第二分词中每个第二分词与候选词表中的任一候选词之间的相似度，将与候选词表中的任一候选词之间的相似度大于相似度阈值的第二分词确定为一个种子词，如此，可以得到至少一个种子词。

5)根据至少一个种子词和候选词表，构建语义标签词典。

将至少一个种子词和候选词表中的候选词作为标签词，根据标签词构建语义标签词典。

在本申请实施例中，通过对歌曲库的多个歌单的歌单信息进行分词和筛选，构建了语义标签词典，该语义标签词典中包括和歌曲分类信息有关的多个标签词。以便于通过下述图3所示的歌曲搜索方法建立歌曲与标签词之间的映射关系，从而协助搜索引擎更准确、自然地理解用户的语义检索意图并召回搜索结果。

图3是本申请实施例提供的一种确定歌曲与标签词之间的关联程度的方法流程图，该方法应用于图1所示的服务器，该方法包括如下步骤：

步骤301：根据语义标签词典和多个歌单的歌单信息，确定每个歌单的标签词。

需要说明的是，对于多个歌单中的每个歌单，对该歌单的的歌单信息进行分词，根据语义标签词典，从分词结果中筛选与标签词典中标签词相同的分词作为该歌单的标签词。

步骤302：根据多个歌单的标签词和每个歌单包括的歌曲，确定多个歌单中目标歌曲的标签词，目标歌曲为多个歌单中的任一歌曲，目标歌曲的标签词包括目标歌曲所属的每个歌单的标签词。

在一种可能的实现方式中，根据目标歌曲所属至少一个歌单的标签词，确定目标歌曲对应的多个标签词。

比如，假设目标歌曲A存在三个歌单中，分别为：歌单1、歌单2和歌单3，其中，歌单1的标签词为：标签词a、标签词b和标签词c；歌单2的标签词为：标签词d和标签词e；歌单3的标签词为：标签词f和标签词g。则根据上述3个歌单的标签词和每个歌单包括的歌曲A确定歌曲A的标签词为：标签词a、标签词b、标签词c、标签词d、标签词e、标签词f和标签词g。

步骤303：对于目标歌曲的任一标签词，确定任一标签词所属歌单的播放量。

对于歌曲库中的多个歌单，服务器会记录每个歌单的播放次数。示例性的，目标歌曲A的标签词为：标签词a、标签词b、标签词c、标签词d、标签词e、标签词f和标签词g。其中，标签词a、标签词b和标签词c为歌单1的标签词，服务器查询后获取歌单1的播放量为100；标签词d和标签词e为歌单2的标签词，服务器查询后获取歌单2的播放量为1000；标签词f和标签词g为歌单3的标签词，服务器查询后获取的歌单3的播放量为200。通过上述方法确定目标歌曲的标签词对应的歌单的播放量。

步骤304：根据任一标签词所属歌单的播放量，确定目标歌曲与任一标签词之间的关联程度。

需要说明的是，当标签词多次出现在目标歌曲对应的歌单信息中的时候，该标签的强度就变大，即在该标签下，播放目标歌曲相应概率变大，歌曲与标签之间的关联性也越强。在本申请中，确定每个标签词所属歌单的播放量，根据目标歌曲所属歌单的播放量来确定目标歌曲和歌单标签词之间的关联程度。

在一种可能的实现方式中，将歌曲库中所有歌曲的标签词与歌单内的歌曲组合构成二部图，建立图模型，在该二部图中，标签词和歌曲相当于一个节点。对于二部图中的所有节点，可以采用PageRank来对二部图节点关联程度进行打分。其中PageRank权重为歌单播放量。对于歌单的播放量，先对其进行平滑处理，将平滑后的歌单播放量作为打分权重。在确定每首歌曲对应的节点和该歌曲所属至少一个歌单的标签词对应的节点和权重后，对属于同一标签词的不同歌曲的依据歌曲和标签词之间的权重进行归一，最终得到的每首歌曲和标签词之间的权重，该权重可以反映出歌曲与标签之间的关联程度。

需要说明的是，PageRank(简称PR)是一种数学排名算法，可以评估用户在一个歌单中播放某首歌曲的可能性。在根据任一标签词所属歌单的播放量，确定目标歌曲与任一标签词之间的关联程度时，可以采用上述示例的PageRank算法，也可以采用其他算法确定目标歌曲与任一标签词之间的关联程度，本申请实施例在此不做限定。

其中，对歌单的播放量进行平滑处理是为了避免因为歌单播放量差值太大导致计算的多个歌单中的每首歌曲与每首歌曲的每个标签词之间的关联程度误差较大，使得返回给用户的歌曲全为热门歌曲，召回歌曲的搜索面较窄。

示例性地，在对歌单的播放量进行平滑处理可以采用log10(1+x)平滑每个歌单的播放量，也可以采用其他算法对歌单的播放量进行平滑处理，本申请实施例在此不做限定。

在本申请实施例中，基于语义标签词典，建立每首歌曲与语义标签词典中标签词之间的匹配关联度，也即是确定每个标签与多首歌曲之间的匹配关联度。如此，在召回符合用户语义搜索请求的多首歌曲时，可以基于用户搜索语句中的关键词和歌曲库中歌曲的标签词之间的相似度召回该标签词对应的多首歌曲，召回的歌曲更符合用户的语义搜索意图。

图4是本申请实施例提供一种歌曲搜索方法的方法流程图，该方法应用于图1所示的服务器，该方法包括如下步骤：

步骤401：获取用户的歌曲搜索请求，歌曲搜索请求包含搜索语句。

当用户需要在音乐平台进行歌曲搜索时，用户会在该音乐平台的搜索框内输入搜索语句并点击搜索按钮后，可以触发终端向音乐平台的后台服务器发送歌曲搜索请求，歌曲搜索请求包含有用户在搜索框中输入的搜索语句。音乐平台的后台服务器接收该歌曲搜索请求。

作为一个示例，在本申请提供的歌曲搜索方法主要适用于用户的语义搜索。比如，在获取用户的搜索语句后，服务器可以先判断用户的搜索语句是否为具有语义搜索意图的语义搜索语句。当用户的搜索语句为语义搜索语句时，使用本申请提供的歌曲搜索方法，将搜索获取的多首歌曲返回给用户。当用户的搜索语句为非语义搜索语句时，采用传统的歌曲搜索方法，将搜索获取的多首歌曲返回给用户。

作为一个示例，为了准确识别用户的搜索意图，服务器可以预先存储有多种搜索意图识别模板，多种搜索意图识别模板包括歌手识别模板、专辑识别模板和语义识别模板。服务器可以根据预先存储的搜索意图识别模板，来判断用户的搜索语句是否为语句搜索语句。比如，在获取用户的的搜索语句后，服务器通过对比用户的搜索语句与存储的语义识别模板之间的相似程度，确定用户输入的搜索语句是否为语义搜索语句。

比如，服务器存储的语义识别模板中包括“关于xx歌曲”这一语义识别模板，当用户的搜索语句为“关于爱国的歌曲”、“关于校园生活的歌曲”或者“关于爱情的歌曲”时，服务器通过对比语义识别模板确定用户的搜索语句是语义搜索语句。

步骤402：根据语义标签词典从搜索语句中确定至少一个关键词，语义标签词典中的标签词是从多个歌单的歌单信息中提取得到。

在一种可能的实现方式中，步骤402的实现过程为：服务器对用户的搜索语句进行分词，将分词得到的多个字符串与语义标签词典中的标签词进行对比，保留与语义标签词典中的标签词相同的至少一个字符串，将该字符串作为该用户搜索语句中的关键词。

比如，假设搜索语句为：适合在校园听的歌曲，语义标签词典中存在“校园”这一标签词，则在该搜索语句中确定的关键词为“校园”。又比如，假设搜索语句为：适合下雨天散步听的抒情歌曲，语义标签词典中存在“下雨”、“散步”和“抒情”这三个标签词，则在该搜索语句中确定的关键词为“下雨”、“散步”和“抒情”。

步骤403：确定至少一个关键词中的每个关键词与歌曲库中所有歌曲的标签词中每个标签词的匹配度，每首歌曲的标签词是根据语义标签词典从每首歌曲所属歌单的歌单信息中提取得到。

在一种可能的实现过程中，步骤403的实现过程为：在确定用户的搜索语句中的关键词后，服务器通过计算机算法依次计算每个关键词与歌曲库中所有歌曲的标签词中每个标签词的相似程度，得到每个关键词与歌曲库中所有歌曲的标签词中每个标签词之间的匹配度。

步骤404：根据至少一个关键词中的每个关键词与歌曲库中所有歌曲的标签词中每个标签词的匹配度，从所有歌曲的标签词中确定与至少一个关键词中任一关键词的匹配度满足预设匹配条件的至少一个标签词。

其中，预设匹配条件可以预先设置，在一种可能的实现方式中，根据所有歌曲的标签词中确定与至少一个关键词中任一关键词的匹配度，选取匹配度大于匹配度阈值的至少一个标签词。比如，预设匹配条件可以为：匹配度≥80％。

在另一种可能的实现方式中，可以将所有歌曲的标签词与至少一个关键词中任一关键词的匹配度按照从高到低的顺序进行排序，从排序结果中选取匹配度排序在前的N个标签词。比如，预设匹配条件可以为：N＝3。

步骤405：从歌曲库中选取至少一个标签词中每个标签词对应的歌曲，将选取的歌曲作为歌曲搜索结果返回给用户。

在一种可能的实现方式中，步骤405的实现过程为：从歌曲库中选取至少一个标签词中每个标签词对应的歌曲，根据选取的歌曲中每首歌曲与对应标签词之间的关联程度，对选取的歌曲进行排序，将排序后的歌曲作为歌曲搜索结果返回给用户。

其中，每首歌曲与对应标签词之间的关联程度用于指示根据每首歌曲所属的、具有每首歌曲对应标签词的歌单播放每首歌曲的概率。

在本申请实施例中，通过语义标签词典确定搜索语句中的关键词，然后确定每个关键词与歌曲库中所有歌曲的标签词中每个标签词的匹配度，再根据每个关键词与歌曲库中所有歌曲的标签词中每个标签词的匹配度，从歌曲库中选取至少一首歌曲作为歌曲搜索结果返回给用户。其中，搜索语句中的关键词是根据语义标签词典确定的，而语义标签词典中的标签词是从多个歌单的歌单信息中提取得到，因此确定的关键词既能表达用户的语义搜索意图，又不受搜索语句中的错别字和无意义文本等噪声词汇的干扰。另外，由于歌曲库中每首歌曲的标签词是根据语义标签词典从每首歌曲所属歌单的歌单信息中提取得到，且歌曲的标签词可以很好的体现歌曲的语义特征，因此在根据关键词与歌曲的标签词的匹配度进行歌曲搜索时，搜索得到的歌曲更契合用户的语义搜索意图，提高了搜索算法的搜索准确度。

图5是本申请实施例提供的一种歌曲搜索装置的结构示意图，该歌曲搜索装置可以由软件、硬件或者两者的结合实现。该歌曲搜索装置可以包括：

获取模块501，用于获取用户的歌曲搜索请求，该歌曲搜索请求包含搜索语句；

第一确定模块502，用于根据语义标签词典从搜索语句中确定至少一个关键词，该语义标签词典中的标签词是从多个歌单的歌单信息中提取得到；

第二确定模块503，用于确定至少一个关键词中的每个关键词与歌曲库中所有歌曲的标签词中每个标签词的匹配度，每首歌曲的标签词是根据语义标签词典从每首歌曲所属歌单的歌单信息中提取得到；

第三确定模块504，用于根据至少一个关键词中的每个关键词与歌曲库中所有歌曲的标签词中每个标签词的匹配度，从所有歌曲的标签词中确定与至少一个关键词中任一关键词的匹配度满足预设匹配条件的至少一个标签词；

第一选取模块505，用于从歌曲库中选取至少一个标签词中每个标签词对应的歌曲，将选取的歌曲作为歌曲搜索结果返回给用户。

可选地，第一选取模块504，还包括：

排序子模块，用于根据选取的歌曲中每首歌曲与对应标签词之间的关联程度，对选取的歌曲进行排序，每首歌曲与对应标签词之间的关联程度用于指示根据每首歌曲所属的、具有每首歌曲对应标签词的歌单播放每首歌曲的概率；

返回子模块，用于将排序后的歌曲作为歌曲搜索结果返回给用户。

可选地，装置还包括：

第四确定模块，用于根据语义标签词典和多个歌单的歌单信息，确定每个歌单的标签词；

第五确定模块，用于根据多个歌单的标签词和每个歌单包括的歌曲，确定多个歌单中目标歌曲的标签词，目标歌曲为多个歌单中的任一歌曲，目标歌曲的标签词包括目标歌曲所属的每个歌单的标签词；

第六确定模块，用于对于目标歌曲的任一标签词，确定任一标签词所属歌单的播放量；

第七确定模块，用于根据任一标签词所属歌单的播放量，确定目标歌曲与任一标签词之间的关联程度。

可选地，装置还包括：

切分模块，用于对多个歌单的歌单信息进行字符切分，得到多个字符串；

第八确定模块，用于确定多个字符串中每个字符串的分词指标，分词指标包括词频、左右信息熵和互信息；

第二选取模块，用于根据多个字符串的分词指标，从多个字符串中选取满足预设分词指标条件的字符串，将选取的字符串确定为多个候选词；

第九确定模块，用于根据多个候选词，确定语义标签词典。

可选地，第二选取模块，包括：

第一筛选子模块，用于按照预设筛选规则，对多个字符串进行筛选；

第一选取子模块，用于根据高频词集合中每个高频词的左右信息熵和互信息，从高频词集合中选取满足第一预设条件的高频词，以及根据低频词集合中每个低频词的左右信息熵和互信息，从低频词集合中选取满足第二预设条件的低频词；

第一确定子模块，用于将筛选后的高频词和低频词，确定为多个候选词。

可选地，第二选取模块，还包括：

第二确定子模块，用于对于高频词集合中的任一高频词，若任一高频词的第一比值和第二比值中的最小值小于第一阈值，左信息熵和右信息熵均大于第二阈值，且互信息大于第三阈值，则确定任一高频词满足第一预设条件，第一比值是指左信息熵与右信息熵之间的比值，第二比值是指右信息熵和左信息熵之间的比值；

第三确定子模块，用于对于低频词集合中的任一低频词，若任一低频词的第一比值和第二比值中的最小值小于第四阈值，左信息熵和右信息熵均大于第五阈值，且互信息大于第六阈值，则确定任一低频词满足第二预设条件。

可选地，第九确定模块，包括：

分词子模块，用于对多个歌单的歌单信息进行分词，根据所述多个候选词组成的候选词表，从分词结果中提取多个第一分词；

第二筛选子模块，用于根据音乐停用词表，对多个第一分词进行筛选，得到多个第二分词；

第四确定子模块，用于确定多个第二分词中的每个第二分词与候选词表中的每个候选词的相似度；

第二选取子模块，用于从多个第二分词中选取与候选词表中的任一候选词的相似度大于相似度阈值的第二分词，得到至少一个种子词；

构建子模块，用于根据至少一个种子词和候选词表，构建语义标签词典。

可选地，第九确定模块，还包括：

训练子模块，用于根据多个第二分词和预设语料中的分词，对待训练词向量模型进行训练，得到词向量模型，该词向量模型用于确定任一第二分词的词向量；

第四确定子模块，包括：

第一确定子单元，用于对于多个第二分词中的任一第二分词，通过词向量模型确定任一第二分词的词向量；

第二确定子单元，用于确定任一第二分词的词向量与候选词表中每个候选词的词向量之间的相似度，候选词表中每个候选词的词向量是通过词向量模型确定得到；

第三确定子单元，用于根据任一第二分词的词向量与目标候选词的词向量之间的相似度，确定任一第二分词与目标候选词的相似度，目标候选词为候选词表中的任一候选词。

需要说明的是：上述实施例提供的歌曲搜索装置在进行歌曲搜索时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的歌曲搜索装置与歌曲搜索方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图6是本发明实施例提供的一种服务器600的结构示意图，该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)601和一个或一个以上的存储器602，其中，所述存储器602中存储有至少一条指令，所述至少一条指令由所述处理器601加载并执行以实现上述各个方法实施例提供的歌曲搜索方法。当然，该服务器600还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器600还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例还提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行上述实施例提供的歌曲搜索方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在服务器上运行时，使得服务器执行上述实施例提供的歌曲搜索方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种歌曲搜索方法，其特征在于，所述方法包括：

确定所述至少一个关键词中的每个关键词与歌曲库中所有歌曲的标签词中每个标签词的匹配度，每首歌曲的标签词是根据所述语义标签词典从每首歌曲所属歌单的歌单信息中提取得到；

2.根据权利要求1所述的方法，其特征在于，所述将选取的歌曲作为歌曲搜索结果返回给所述用户，包括：

将排序后的歌曲作为歌曲搜索结果返回给所述用户。

3.根据权利要求2所述的方法，其特征在于，所述根据选取的歌曲中每首歌曲与对应标签词之间的关联程度，对所述选取的歌曲进行排序之前，还包括：

4.如权利要求1-3任一所述的方法，其特征在于，所述根据语义标签词典对所述搜索语句进行分词处理之前，还包括：

根据所述多个候选词，确定所述语义标签词典。

5.根据权利要求4所述的方法，其特征在于，所述根据所述多个字符串的分词指标，从所述多个字符串中选取满足预设分词指标条件的字符串，将选取的字符串确定为多个候选词，包括：

按照预设筛选规则，对所述多个字符串进行筛选；

将筛选后的高频词和低频词，确定为所述多个候选词。

6.根据权利要求5所述的方法，其特征在于，所述根据所述高频词集合中每个高频词的左右信息熵和互信息，从所述高频词集合中选取满足第一预设条件的高频词，以及根据所述低频词集合中每个低频词的左右信息熵和互信息，从所述低频词集合中选取满足第二预设条件的低频词之前，还包括：

7.根据权利要求4所述的方法，其特征在于，所述根据所述多个候选词，确定所述语义标签词典，包括：

8.根据权利要求7所述的方法，其特征在于，所述确定所述多个第二分词中的每个第二分词与所述候选词表中的每个候选词的相似度之前，还包括：

9.一种歌曲搜索装置，其特征在于，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，所述第一选取模块，包括：

11.根据权利要求10所述的装置，其特征在于，所述装置，还包括：

12.如权利要求9-11任一所述的装置，其特征在于，所述装置，还包括：

13.根据权利要求12所述的装置，其特征在于，所述第二选取模块，包括：

14.根据权利要求13所述的装置，其特征在于，所述第二选取模块，还包括：

15.根据权利要求12所述的装置，其特征在于，所述第九确定模块，包括：

16.根据权利要求15所述的装置，其特征在于，所述第九确定模块，还包括：

所述第四确定子模块，包括：

17.一种歌曲搜索装置，其特征在于，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述权利要求1至权利要求8中的任一项权利要求所述的方法的步骤。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有指令，所述指令被处理器执行时实现上述权利要求1至权利要求8中的任一项权利要求所述的方法的步骤。