CN110866144B

CN110866144B - 歌曲检索方法及装置

Info

Publication number: CN110866144B
Application number: CN201911077947.1A
Authority: CN
Inventors: 郝志新; 潘树燊
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2019-11-06
Filing date: 2019-11-06
Publication date: 2022-08-05
Anticipated expiration: 2039-11-06
Also published as: CN110866144A

Abstract

本申请公开了一种歌曲检索方法及装置，属于电子信息技术领域。在本申请中，服务器将接收到的搜索串切分为多个搜索词，根据多个搜索词，确定多个搜索词集合，从而获得多个原始检索结果，多个原始检索结果中的每个原始检索结果都包含多个搜索词集合中任一搜索词集合的全部搜索词，之后，服务器根据多个原始检索结果确定歌曲检索结果。其中，多个搜索词集合中的部分搜索词集合是通过丢弃多个搜索词中不同搜索词得到的，且部分搜索词集合包括的搜索词的并集为全部搜索词，也即，本申请是根据对多个搜索词随机丢词得到的多个集合来检索歌曲，相较于现有技术中直接根据丢弃某几个词后的一个集合来检索歌曲，提高了检索结果的准确度。

Description

歌曲检索方法及装置

技术领域

本申请涉及电子信息技术领域，特别涉及一种歌曲检索方法及装置。

背景技术

随着现代生活节奏的越来越快，人们面临着来自各方面的压力，而听歌曲是一种能够帮助人们缓解压力的有效方法。有些情况下，用户听到了好听的歌曲或者想起了一首歌曲的几句歌词，但是记不起歌曲的名称，此时，用户可以将歌词作为搜索串输入终端，终端在接收到搜索串后，可以将搜索串切分为多个搜索词，并通过检索多个搜索词来获取歌曲检索结果。

相关的技术中，终端可以从多个搜索词中确定最有可能输入错误的搜索词，并将确定出的搜索词删除，之后，终端可以确定包含剩余搜索词的歌词，并将确定的歌词对应的歌曲作为歌曲检索结果。

由此可见，相关技术需要通过排除最有可能输入错误的搜索词来获取剩余搜索词，进而根据剩余搜索词来确定歌曲检索结果，然而被排除的这些搜索词不一定就是错误的搜索词，因此，将可能输入错误的搜索词排除之后，根据剩余搜索词确定的歌曲检索结果不准确。

发明内容

本申请实施例提供了一种歌曲检索方法及装置，可以用于解决用户通过歌词检索歌曲名称时检索结果不准确的问题。所述技术方案如下：

一方面，提供了一种歌曲检索方法，所述方法包括：

对接收到的搜索串进行切分，得到多个搜索词；

根据所述多个搜索词，确定多个搜索词集合，一个搜索词集合中包括所述多个搜索词中的全部搜索词，其余每个搜索词集合中包括所述多个搜索词中的部分搜索词，且所述其余每个搜索词集合包括的所述部分搜索词的并集包括所述多个搜索词；

根据所述多个搜索词集合，检索获取多个原始检索结果，所述多个原始检索结果中的每个原始检索结果包含有所述多个搜索词集合中任一搜索词集合内的全部搜索词；

根据所述多个原始检索结果，确定所述歌曲检索结果。

可选地，所述根据所述多个原始检索结果，确定所述歌曲检索结果，包括：

确定所述多个原始检索结果中每个原始检索结果的搜索词连续命中率；

根据每个原始检索结果的搜索词连续命中率，从所述多个原始检索结果中查找候选检索结果；

根据查找到的所述候选检索结果，确定所述歌曲检索结果。

可选地，所述确定所述多个原始检索结果中每个原始检索结果的搜索词连续命中率，包括：

对第一原始检索结果进行切分，得到多个词语，所述第一原始检索结果是指所述多个原始检索结果中的任一个原始检索结果，所述多个词语按照在所述第一原始检索结果内的先后顺序排列；

将所述多个词语划分为多个词语集合，每个词语集合内包括的词语的数量等于所述多个搜索词的数量，各个词语集合内包括的词语不存在重叠，且每个词语集合内包括的词语彼此相邻；

根据每个词语集合内包含的搜索词的数量，确定每个词语集合的命中率；

根据每个词语集合的命中率，确定所述第一原始检索结果的搜索词连续命中率。

可选地，所述根据每个原始检索结果的搜索词连续命中率从所述多个原始检索结果中查找候选检索结果，包括：

将所述多个原始检索结果中的搜索词连续命中率大于第一阈值的原始检索结果确定为所述候选检索结果。

可选地，所述根据查找到的所述候选检索结果，确定所述歌曲检索结果，包括：

从查找到的所述候选检索结果中的每个候选检索结果中确定最长命中子串，所述最长命中子串是指在相应候选检索结果中连续命中的至少一个搜索词。

根据每个候选检索结果的最长命中子串对所述多个搜索词进行筛选，得到每个候选检索结果对应的筛选后的搜索词；

根据每个候选检索结果对应的筛选后的搜索词和所述候选检索结果，确定所述歌曲检索结果。

可选地，所述根据每个候选检索结果的最长命中子串对所述多个搜索词进行筛选，得到每个候选检索结果对应的筛选后的搜索词，包括：

将第一候选检索结果中最长命中子串的第一个字符所在的位置作为第一位置，所述第一候选检索结果是指所述候选检索结果中的任一个候选检索结果；

在所述第一候选检索结果中查找位于第一位置之前的第一搜索词，所述第一搜索词与所述最长命中子串之间不存在所述多个搜索词内的其他搜索词；

如果所述第一搜索词和所述最长命中子串在所述第一候选检索结果中的先后顺序与在所述搜索串中的先后顺序一致，则将所述第一搜索词和所述最长命中子串按照先后顺序进行组合，将组合得到的字符串作为更新后的最长命中子串，并返回将第一候选检索结果中最长命中子串的第一个字符所在的位置作为第一位置的步骤；

如果所述第一搜索词和所述最长命中子串在所述第一候选检索结果中的先后顺序与在所述搜索串中的先后顺序不一致，则将所述多个搜索词和所述第一候选检索结果中的第一搜索词删除，将删除后剩余的搜索词作为所述第一候选检索结果对应的筛选后的搜索词。

可选地，所述根据每个候选检索结果对应的筛选后的搜索词和所述候选检索结果，确定所述歌曲检索结果，包括：

根据每个候选检索结果对应的筛选后的搜索词和相应候选检索结果，确定相应候选检索结果与所述搜索串之间的相似度；

根据每个候选检索结果与所述搜索串之间的相似度，确定所述歌曲检索结果。

另一方面，提供了一种歌曲检索装置，所述装置包括：

切词模块，用于对接收到的搜索串进行切分，得到多个搜索词；

第一确定模块，用于根据所述多个搜索词，确定多个搜索词集合，一个搜索词集合中包括所述多个搜索词中的全部搜索词，其余每个搜索词集合中包括所述多个搜索词中的部分搜索词，且所述其余每个搜索词集合包括的所述部分搜索词的并集包括所述多个搜索词；

获取模块，用于根据所述多个搜索词集合，检索获取多个原始检索结果，所述多个原始检索结果中的每个原始检索结果包含有所述多个搜索词集合中任一搜索词集合内的全部搜索词；

第二确定模块，用于根据所述多个原始检索结果，确定歌曲检索结果。

可选地，所述第二确定模块包括：

计算单元，用于确定所述多个原始检索结果中每个原始检索结果的搜索词连续命中率；

筛选单元，用于根据每个原始检索结果的搜索词连续命中率，从所述多个原始检索结果中查找候选检索结果；

确定单元，用于根据查找到的所述候选检索结果，确定所述歌曲检索结果。

可选地，所述计算单元具体用于：

根据每个词语集合内包含的搜索词的数量，确定每个词语集合的命中率，

可选地，所述筛选单元具体用于：

可选地，所述确定单元包括：

第一确定子单元，用于从查找到的所述候选检索结果中的每个候选检索结果中确定最长命中子串，所述最长命中子串是指在相应候选检索结果中连续命中的至少一个搜索词；

筛选子单元，用于根据每个候选检索结果的最长命中子串对所述多个搜索词进行筛选，得到每个候选检索结果对应的筛选后的搜索词；

第二确定子单元，用于根据每个候选检索结果对应的筛选后的搜索词和所述候选检索结果，确定所述歌曲检索结果。

可选地，所述筛选子单元具体用于：

可选地，所述第二确定子单元具体用于：

另一方面，提供了一种歌曲检索装置，所述装置包括处理器、通信接口、存储器和通信总线；

其中，所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信；

所述存储器用于存放计算机程序；

所述处理器用于执行所述存储器上所存放的程序，以实现前述提供的歌曲检索方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现前述提供的歌曲检索方法的步骤。

本申请实施例提供的技术方案带来的有益效果至少包括：

在本申请实施例中，服务器在接收到终端发送的搜索串之后，可以将该搜索串切分得到多个搜索词，根据该多个搜索词，确定多个搜索词集合，从而获得多个原始检索结果，这多个原始检索结果中的每个原始检索结果都包含多个搜索词集合中任一搜索词集合内的全部搜索词，之后，服务器可以根据该多个原始检索结果确定歌曲检索结果。其中，多个搜索词集合中的部分搜索词集合是通过丢弃多个搜索词中的不同搜索词确定得到的，并且部分搜索词集合包括的搜索词的并集为全部搜索词，也即，本申请相当于是根据对多个搜索词进行随机丢词得到的多个集合来检索歌曲，相较于现有技术中直接根据丢弃某几个词之后的一个集合来检索歌曲，提高了检索结果的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种歌曲检索系统示意图；

图2是本申请实施例提供的一种歌曲检索方法流程图；

图3是本申请实施例提供的一种根据多个原始检索结果，确定歌曲检索结果的方法流程图；

图4是本申请实施例提供的一种歌曲检索装置的结构示意图；

图5是本申请实施例提供的一种歌曲检索服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在对本申请实施例进行详细的解释说明之前，先对本申请实施例涉及的应用场景予以介绍。

在有些情况下，用户听到了好听的歌曲或者想起了一首歌曲的几句歌词，但是却不知道歌曲的名字，此时，用户可以通过在网络上进行检索来知道歌曲的名字，用户将歌词作为搜索串输入终端，终端在接收到搜索串后，进行检索得到歌曲检索结果，并将结果返回给用户。本申请实施例提供的歌曲检索的方法，即可以用于在该种场景下，根据用户提供的搜索串来搜索歌曲。

接下来对本申请实施例提供的歌曲检索方法所涉及的系统架构进行介绍。

图1是本申请实施例提供的一种歌曲检索系统示意图。如图1所示，该歌曲检索系统100包括终端101和服务器102。终端101和服务器102之间通过无线或有线方式连接以进行通信。

其中，该终端101安装有检索应用或者是其他具有检索功能的音乐应用的终端，该终端可以通过该检索应用或音乐应用接收用户输入的需要检索的搜索串，并将搜索串发送至服务器102。另外，终端101可以接收服务器发送的歌曲检索结果，并在检索应用或者是音乐应用的应用界面中显示该歌曲检索结果。

服务器102可以接收终端101发送的搜索串，并将搜索串切分为多个搜索词，根据多个搜索词，确定多个搜索词集合，通过这多个搜索词集合，获取多个原始检索结果，对多个原始检索结果进行筛选后得到候选检索结果，进而得到歌曲检索结果，并将歌曲检索结果发送给终端101。

在本申请实施例中，终端101可以为手机、平板电脑等设备，图1中仅仅是以手机举例进行说明，并不构成对本申请实施例的限定。服务器102可以是用于为上述检索应用或者是音乐应用提供服务的一台服务器或者一个服务器集群。

接下来对本申请实施例提供的歌曲检索方法进行介绍。

图2是本申请实施例提供的一种歌曲检索方法的流程图，该方法可以应用于服务器中，该服务器可以是指图1中的服务器102。如图2所示，该方法包括以下步骤：

步骤201：对接收到的搜索串进行切分，得到多个搜索词。

其中，搜索串为终端发送的由用户输入的歌词，其中，搜索串包括多个搜索词。

需要说明的是，终端上安装有目标应用，该目标应用可以为前述系统架构中介绍的诸如检索应用、音乐应用等具有检索功能的应用，当终端接收到用户输入在该目标应用提供的搜索栏中输入的搜索串后，可以将这个搜索串发送给服务器。

服务器中存储有切词词表和切词规则。在接收到终端发送的搜索串之后，服务器可以通过切词词表和切词规则对接收到的搜索串切分，从而得到多个搜索词。

其中，切词词表为包含有现有已知词语的词库，由于用户可以根据表达的需要不断地构造新词，因此，切词词表可以不断进行更新。切词规则为通过歧义切分字段及其相应的句子归纳出的对歧义字段切分的句法规则及构词规则。

示例性地，当服务器接收到的搜索串为“曾经年少爱追梦”，则根据存储的切词词表和切词规则可以将该搜索串切分为”曾经”、“年少”、“爱”、“追梦”这四个搜索词。

可选的，在本申请实施例中，终端也可以在接收到用户输入的搜索串后直接进行切词，从而得到多个搜索词，也即，本步骤也可以由终端来执行。在这种情况下，终端中存储有上述切词词表和切词规则，在将搜索串切分为多个搜索词之后，终端可以将多个搜索词发送给服务器。

步骤202：根据多个搜索词，确定多个搜索词集合，一个搜索词集合中包括多个搜索词中的全部搜索词，其余每个搜索词集合中包括多个搜索词中的部分搜索词，且其余每个搜索词集合包括的部分搜索词的并集包括多个搜索词。

其中，多个搜索词为服务器把接收到的终端发送的搜索串切分后生成的。通过这多个搜索词可以确定多个搜索词集合，一个搜索词集合中包括多个搜索词中的全部搜索词，其余每个搜索词集合中包括这多个搜索词中的部分搜索词，并且，其余每个搜索词集合中包括的部分搜索词的并集包括多个搜索词中的全部搜索词。这样，根据多种不同的搜索词集合，即可以匹配到更多的原始检索结果，扩大了歌曲搜索结果的范围。

在接收到多个搜索词之后，服务器可以获取搜索词最小命中比例。该最小命中比例可以从终端中获取的，此时，该最小命中比例是指由终端的用户在目标应用中设置的比例，这样，对于不同用户，该最小命中比例不同。或者，该最小命中比例是服务器中存储的由开发人员设置的比例，在这种情况下，对于所有的用户，最小命中比例均相同。

在获取到搜索词最小命中比例之后，服务器根据该最小命中比例和多个搜索词的数量确定最小搜索词数量。服务器可以根据最小搜索词数量，对多个搜索词中大于或等于该数量的搜索词进行随机组合，从而得到多个搜索词集合。其中，多个搜索词集合的并集包括全部搜索词。

示例性地，假设接收到的搜索串包括A、B、C、D这四个搜索词，最小命中比例为3/4。则根据搜索词数量和最小命中比例可知，最小搜索词数量为3。此时，服务器可以对四个搜索词中大于或等于3个的搜索词进行随机组合，得到的多个搜索词集合可以为：“ABCD”、“ABC”、“BCD”、“ABD”、“ACD”。

需要说明的是，为了减少搜索词集合的数量，在本申请实施例中，服务器可以只对多个搜索词中等于该最小搜索词数量的搜索词进行随机组合，将组合得到的集合作为多个搜索词集合。例如，假设最小搜索数量为3，则服务器可以将多个搜索词中每3个搜索词进行一次组合，得到一个搜索词集合。

另外，在本申请实施例中，在根据该最小命中比例和多个搜索词的数量确定最小搜索词数量时，服务器可以计算最小命中比例和多个搜索词的数量之间的乘积。如果该乘积为整数，则直接将该乘积作为最小搜索词数量。如果不为整数，则对其向上取整，从而得到最小搜索词数量。

步骤203：根据多个搜索词集合，检索获取多个原始检索结果，多个原始检索结果中的每个原始检索结果包含有多个搜索词集合中任一搜索词集合内的全部搜索词；

由前述介绍可知，根据服务器切词后生成的多个搜索词，确定了多个搜索词集合，这多个搜索词集合即为满足最小命中比例要求的搜索词集合。服务器根据多个搜索词集合在存储的原始检索结果数据库中进行检索和对比，确定包含多个搜索词集合中任一搜索词集合内的全部搜索词的原始检索结果。也即，对于任一个原始检索结果，如果该原始检索结果中包含有任意一个搜索词集合中的全部搜索词，则服务器可以获取该原始检索结果。通过上述方法，服务器根据不同的搜索词集合可以得到多个原始检索结果。

示例性地，假设服务器所确定的多个搜索词集合为：“ABCD”、“ABC”、“BCD”、“ABD”、“ACD”，那么经过检索和对比可以获得包含多个搜索词集合中任一搜索词集合内全部搜索词的多个原始检索结果可能为：“ABCDE”、“ABCE”、“EBCD”、“ABED”、“ABECDF”等。

步骤204：根据多个原始检索结果，确定歌曲检索结果。

在本申请实施例中，服务器可以直接根据多个原始检索结果中的每个原始检索结果获取对应的歌曲信息，进而将获取到的歌曲信息作为歌曲检索结果。

可选地，为了减少检索结果数量，提高检索结果精确度，参见图3，服务器可以通过以下几个步骤来确定歌曲检索结果。

2041：确定多个原始检索结果中每个原始检索结果的搜索词连续命中率。

其中，在确定多个原始检索结果中每个原始检索结果的搜索词连续命中率时，以其中任一个原始检索结果为例，假设该原始检索结果为第一原始检索结果，服务器可以对第一原始检索结果进行切分，得到多个词语，第一原始检索结果是指多个原始检索结果中的任一个原始检索结果，多个词语按照在第一原始检索结果内的先后顺序排列；将多个词语划分为词语集合，每个词语集合内包括的词语的数量等于多个搜索词的数量，各个词语集合内包括的词语不存在重叠，且每个词语集合内包括的词语彼此相邻；根据每个词语集合内包含的搜索词的数量，确定每个词语集合的命中率；根据每个词语集合的命中率，确定第一原始检索结果的搜索词连续命中率。

需要说明的是，第一原始检索结果被切分为多个词语，这多个词语按照在第一原始检索结果内的先后顺序排列。之后，将多个词语按顺序划分为多个词语集合。示例性地，服务器从多个词语中的第一个词语开始，将每M个词语划分为一个词语集合，其中，M等于多个搜索词的数量。

在得到多个词语集合之后，服务器可以确定每个词语集合内包含的搜索词数量与多个搜索词数量之间的比例，将该比例作为相应词语集合的命中率。

在确定每个词语集合的命中率之后，服务器可以按照多个词语集合中包括的词语在第一原始检索结果中的先后顺序，对多个词语集合进行排序。之后，将每相邻的两个词语集合的命中率相加，得到第一原始检索结果对应的多个连续命中率。将多个连续命中率中的最大值作为第一原始检索结果的搜索词连续命中率。

示例性地，假设服务器将搜索串切分为“明白”、“身不由己”这两个搜索词。对第一原始检索结果切分，并对切分后得到的词语按照在第一原始检索结果内的先后顺序排列，得到排列结果为：“总有”、“一天”、“你”、“会”、“明白”、“身不由己”。将这六个词语按先后顺序划分为多个词语集合，每个词语集合内包括的词语的数量等于搜索词的数量，也即两个。划分后的多个词语集合为集合1：“总有、一天”，集合2：“你、会”，集合3：“明白、身不由己”，计算每个词语集合命中多个搜索词的比率。其中，集合1不包含两个搜索词中的任一搜索词，命中率为0，集合2不包含两个搜索词中的任一搜索词，命中率为0，集合3包含全部两个搜索词“明白”、“身不由己”，命中率为100％。根据每个词语集合的命中率计算每相邻两个词语集合的连续命中率。其中，集合1与集合2的连续命中率为0，集合2与集合3的连续命中率为100％。由此可知，第一原始检索结果的搜索词连续命中率为100％。

对于多个原始检索结果中的每个原始检索结果，服务器均可以参考对第一原始检索结果的处理方法来确定得到每个原始检索结果的搜索词连续命中率。

2042：根据每个原始检索结果的搜索词连续命中率，从多个原始检索结果中查找候选检索结果。

在确定每个原始检索结果中的搜索词连续命中率之后，服务器可以将多个原始检索结果中的搜索词连续命中率大于第一阈值的原始检索结果确定为候选检索结果。

可选的，在确定每个原始检索结果的搜索词连续命中率之后，多个原始检索结果中的搜索词连续命中率可能不存在大于第一阈值的原始检索结果，服务器可以确定不存在候选检索结果，在这种情况下，则停止计算，返回歌曲检索结果为空，并等待接收新的搜索串。

2043：根据查找到的候选检索结果，确定歌曲检索结果。

在本申请实施例中，服务器可以直接获取候选检索结果中的每个候选检索结果对应的歌曲信息，并将获取的歌曲信息作为歌曲检索结果。

可选地，服务器也可以从候选检索结果中的每个候选检索结果中确定最长命中子串。根据每个候选检索结果的最长命中子串对多个搜索词进行筛选，得到每个候选检索结果对应的筛选后的搜索词；根据每个候选检索结果对应的筛选后的搜索词和候选检索结果，确定歌曲检索结果。其中，最长命中子串是指在相应候选检索结果中连续命中的至少一个搜索词。

接下来，以候选检索结果中的第一候选检索结果为例来进行解释说明。

服务器可以确定在第一候选检索结果中命中的搜索词的位置。确定第一候选检索结果中每相邻的两个命中的搜索词的位置之间的差值，如果这两个命中的搜索词的位置差为0，则说明这两个搜索词在第一候选检索结果中是连续命中的子串，此时，可以确定子串括的字符的数量。比较各个子串包含的字符数量的大小，将包含的字符数量最大的子串作为最长命中子串。如果第一候选检索结果中不存在连续命中的多个搜索词，则可以将命中的搜索词中包含的字符数量最多的搜索词作为最长命中子串。

可选地，在本申请实施例中，服务器也可以将候选检索结果中任意一个命中的搜索词作为最长命中子串。

在确定最长命中子串之后，服务器会将第一候选检索结果中最长命中子串的第一个字符所在的位置作为第一位置；在第一候选检索结果中查找位于第一位置之前的第一搜索词；如果第一搜索词和最长命中子串在第一候选检索结果中的先后顺序与在搜索串中的先后顺序一致，则将第一搜索词和最长命中子串按照先后顺序进行组合，将组合得到的字符串作为更新后的最长命中子串，并返回将第一候选检索结果中最长命中子串的第一个字符所在的位置作为第一位置的步骤；如果第一搜索词和最长命中子串在第一候选检索结果中的先后顺序与在搜索串中的先后顺序不一致，则将多个搜索词和第一候选检索结果中的第一搜索词删除，将删除后剩余的搜索词作为第一候选检索结果对应的筛选后的搜索词。

其中，第一搜索词与最长命中子串之间不存在多个搜索词内的其他搜索词。

需要说明的是，服务器在查找到第一搜索词之后，可以检测搜索串中第一搜索词是否位于最长命中子串之前，如果是，则确定第一搜索词和最长命中子串在第一候选检索结果中的先后顺序与在搜索串中的先后顺序一致。否则，则认为不一致。如果第一搜索词和最长命中子串在第一候选检索结果中的先后顺序与在搜索串中的先后顺序一致，则说明第一搜索词不为干扰词，此时，可以保留第一搜索词，并且将第一搜索词和最长命中子串按照在候选检索结果中的先后顺序进行组合，得到更新后的最长命中子串，更新后的最长命中子串也包括第一搜索词和最长命中子串之间的歌词。之后，从更新后的最长命中子串的第一个字符所在的位置开始，继续向前查找命中的搜索词，并按照前述的方法继续判断该搜索词是否为干扰词。如果第一搜索词和最长命中子串在第一候选检索结果中的先后顺序与在搜索串中的先后顺序不一致，则说明第一搜索词为干扰词，此时，服务器可以删除多个搜索词和第一候选检索结果中的第一搜索词。在删除第一搜索词之后，服务器可以仍以最长命中子串的第一个字符为第一位置，向前查找命中的搜索词，并按照前述的方法继续判断该搜索词是否为干扰词。

值得注意的是，在删除第一搜索词之前，服务器可以计算已经删除的搜索词占多个搜索词的比例，并比较该比例与预先设定的第二阈值。如果该比例大于第二阈值，则不对第一搜索词进行删除，并停止继续查找干扰词。

可选地，在本申请实施例中，服务器也可以参考前述介绍的方式，将最长命中子串的最后一个字符所在的位置作为第一位置，并从第一位置起向后查找第一搜索词。在查找到第一搜索词之后，服务器可以参考前述介绍的方法判断该第一搜索词是否为干扰词，并按照前述介绍的方法来对干扰词进行删除。

可选地，在一种可能的实现方式中，服务器也可以以最长命中子串为中心，将上述两种实现方式结合，同时从最长命中子串之前和之后来查找第一搜索词，进而判断该第一搜索词是否为干扰词，并对确定的干扰词进行删除。

示例性的，假设搜索串为“晴空万里总是暴风雨”，服务器将搜索串“晴空万里总是暴风雨”切分为“晴空万里”、“总是”、“暴风雨”这三个搜索词。假设第一候选检索结果为“晴空万里突然暴风雨，无处躲避总是让人始料不及”，命中的搜索词为“晴空万里”、“总是”、“暴风雨”，其中，最长命中子串为“晴空万里”，则使用上述第一中方式来查找干扰词时，发现不存在干扰词。与此同时，可以使用上述的第二种实现方式，将“里”所在位置作为第一位置，从该第一位置起向右查找，查找到另一个命中的搜索词即第一搜索词“暴风雨”，确定“里”和“暴风雨”在第一候选检索结果中的位置，从而确定“暴风雨”位于“晴空万里”之后。与此同时，服务器可以确定在搜索串中“暴风雨”的位置大于“里”的位置，即“暴风雨”也位于“晴空万里”之后。由此可知，“暴风雨”和“晴空万里”在第一候选检索结果中的先后顺序与在搜索串中的先后顺序一致。此时，将“暴风雨”和“晴空万里”按照在候选检索结果中的先后顺序进行组合，得到更新后的最长命中子串“晴空万里突然暴风雨”，则“雨”就为新的第一位置，继续在第一候选检索结果中向新的第一位置的右侧查找，又查找到另一个命中的搜索词即第一搜索词“总是”，确定“雨”和“总是”在第一候选检索结果中的位置，从而确定“总是”位于“暴风雨”之后。与此同时，确定在搜索串中“雨”的位置大于“总是”的位置，即“总是”位于“暴风雨”之前。由此可见，“暴风雨”和“总是”在第一候选检索结果中的先后顺序与在搜索串中的先后顺序不一致，此时，可以将多个搜索词和第一候选检索结果中的“总是”删除。

在将多个搜索词和每个候选检索结果中的干扰词删除之后，服务器可以根据每个候选检索结果对应的筛选后的搜索词和相应候选检索结果，确定相应候选检索结果与搜索串之间的相似度；根据每个候选检索结果与搜索串之间的相似度，确定歌曲检索结果。

其中，服务器可以通过每个候选检索结果对应的筛选后的搜索词和相应的删除干扰词后的候选检索结果，通过下述公式计算相应候选检索结果与搜索串之间的相似度；

其中，p为相应候选检索结果与搜索串之间的相似度，mincoverage为剩余搜索词中第一个搜索词在删除干扰词后的候选检索结果中对应的位置与最后一个搜索词在该候选检索结果中对应的位置之间的差值。wordnum为多个搜索词的数量，mindistance为搜索串中任意相邻两个搜索词在歌曲检索结果中的对应位置的最小距离。

需要说明的是，上述提供了一种计算相应候选检索结果与搜索串之间的相似度的方法，在另外一些可能的情况下，还可以通过其他的方法计算相应候选检索结果与搜索串之间的相似度，本申请实施例对此不做限定。

参见图4，本申请实施例提供了一种歌曲检索装置400，该歌曲检索装置可以应用于客户端中，该装置400包括：

切词模块401，用于对接收到的搜索串进行切分，得到多个搜索词；

第一确定模块402，用于根据多个搜索词，确定多个搜索词集合，一个搜索词集合中包括多个搜索词中的全部搜索词，其余每个搜索词集合中包括多个搜索词中的部分搜索词，且其余每个搜索词集合包括的部分搜索词的并集包括多个搜索词；

获取模块403，用于根据多个搜索词集合，检索获取多个原始检索结果，多个原始检索结果中的每个原始检索结果包含有多个搜索词集合中任一搜索词集合内的全部搜索词；

第二确定模块404，用于根据多个原始检索结果，确定歌曲检索结果。

可选地，该第二确定模块404包括：

计算单元，用于确定多个原始检索结果中每个原始检索结果的搜索词连续命中率；

筛选单元，用于根据每个原始检索结果的搜索词连续命中率，从多个原始检索结果中查找候选检索结果；

确定单元，用于根据查找到的候选检索结果，确定歌曲检索结果。

可选地，该计算单元具体用于：

对第一原始检索结果进行切分，得到多个词语，第一原始检索结果是指多个原始检索结果中的任一个原始检索结果，多个词语按照在第一原始检索结果内的先后顺序排列；

将多个词语划分为多个词语集合，每个词语集合内包括的词语的数量等于多个搜索词的数量，各个词语集合内包括的词语不存在重叠，且每个词语集合内包括的词语彼此相邻；

根据每个词语集合的命中率，确定第一原始检索结果的搜索词连续命中率。

可选地，该筛选单元具体用于：

将多个原始检索结果中的搜索词连续命中率大于第一阈值的原始检索结果确定为候选检索结果。

可选地，该确定单元包括：

第一确定子单元，用于从查找到的候选检索结果中的每个候选检索结果中确定最长命中子串，最长命中子串是指在相应候选检索结果中连续命中的至少一个搜索词；

筛选子单元，用于根据每个候选检索结果的最长命中子串对多个搜索词进行筛选，得到每个候选检索结果对应的筛选后的搜索词；

第二确定子单元，用于根据每个候选检索结果对应的筛选后的搜索词和至少一个候选检索结果，确定歌曲检索结果。

可选地，该筛选子单元具体用于：

将第一候选检索结果中最长命中子串的第一个字符所在的位置作为第一位置，第一候选检索结果是指至少一个候选检索结果中的任一个候选检索结果；

在第一候选检索结果中查找位于第一位置之前的第一搜索词，第一搜索词与所述最长命中子串之间不存在多个搜索词内的其他搜索词；

如果第一搜索词和最长命中子串在第一候选检索结果中的先后顺序与在搜索串中的先后顺序一致，则将所述第一搜索词和所述最长命中子串按照先后顺序进行组合，将组合得到的字符串作为更新后的最长命中子串，并返回将第一候选检索结果中最长命中子串的第一个字符所在的位置作为第一位置的步骤；

如果第一搜索词和最长命中子串在第一候选检索结果中的先后顺序与在搜索串中的先后顺序不一致，则将多个搜索词和第一候选检索结果中的第一搜索词删除，将删除后剩余的搜索词作为第一候选检索结果对应的筛选后的搜索词。

可选地，该第二确定子单元具体用于：

根据每个候选检索结果对应的筛选后的搜索词和相应候选检索结果，确定相应候选检索结果与搜索串之间的相似度；

根据每个候选检索结果与搜索串之间的相似度，确定歌曲检索结果。

需要说明的是：上述实施例提供的歌曲检索装置在进行歌曲检索时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的歌曲检索装置与歌曲检索的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图5是本申请实施例提供的一种用于进行歌曲检索的服务器500的结构示意图。上述图2-3所示的实施例中的服务器的功能即可以通过图5中所示的服务器来实现。该服务器可以是后台服务器集群中的服务器。具体来讲：

服务器500包括中央处理单元(CPU)501、包括随机存取存储器(RAM)502和只读存储器(ROM)503的系统存储器504，以及连接系统存储器504和中央处理单元501的系统总线505。服务器500还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)506，和用于存储操作系统513、应用程序514和其他程序模块515的大容量存储设备507。

基本输入/输出系统506包括有用于显示信息的显示器508和用于用户输入信息的诸如鼠标、键盘之类的输入设备509。其中显示器508和输入设备509都通过连接到系统总线505的输入输出控制器510连接到中央处理单元501。基本输入/输出系统506还可以包括输入输出控制器510以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器510还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备507通过连接到系统总线505的大容量存储控制器(未示出)连接到中央处理单元501。大容量存储设备507及其相关联的计算机可读介质为服务器500提供非易失性存储。也就是说，大容量存储设备507可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器504和大容量存储设备507可以统称为存储器。

根据本申请的各种实施例，服务器500还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器500可以通过连接在系统总线505上的网络接口单元511连接到网络512，或者说，也可以使用网络接口单元511来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。所述一个或者一个以上程序包含用于进行本申请实施例提供的歌曲检索方法的指令。

本申请实施例还提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行上述图2或3所示实施例提供的歌曲检索方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述图2或3所示实施例提供的歌曲检索方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种歌曲检索方法，其特征在于，所述方法包括：

对接收到的搜索串进行切分，得到多个搜索词；

根据所述多个搜索词集合，检索获取多个原始检索结果，所述多个原始检索结果中的每个原始检索结果包含有所述多个搜索词集合中一个搜索词集合内的全部搜索词；

根据所述多个原始检索结果，确定歌曲检索结果。

2.根据权利要求1所述的方法，其特征在于，所述根据所述多个原始检索结果，确定歌曲检索结果，包括：

根据查找到的所述候选检索结果，确定所述歌曲检索结果；

所述确定所述多个原始检索结果中每个原始检索结果的搜索词连续命中率，包括：

按照所述多个词语集合中包括的词语在所述第一原始检索结果中的先后顺序，对所述多个词语集合进行排序，将每相邻的两个词语集合的命中率相加，得到所述第一原始检索结果对应的多个连续命中率；将所述多个连续命中率中的最大值作为所述第一原始检索结果的搜索词连续命中率。

3.根据权利要求2所述的方法，其特征在于，所述根据每个原始检索结果的搜索词连续命中率从所述多个原始检索结果中查找候选检索结果，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据查找到的所述候选检索结果，确定所述歌曲检索结果，包括：

从查找到的所述候选检索结果中的每个候选检索结果中确定最长命中子串，所述最长命中子串是指在相应候选检索结果中连续命中的至少一个搜索词；

5.根据权利要求4所述的方法，其特征在于，所述根据每个候选检索结果的最长命中子串对所述多个搜索词进行筛选，得到每个候选检索结果对应的筛选后的搜索词，包括：

6.根据权利要求4或5所述的方法，其特征在于，所述根据每个候选检索结果对应的筛选后的搜索词和所述候选检索结果，确定所述歌曲检索结果，包括：

7.一种歌曲检索装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述第二确定模块包括：

确定单元，用于根据查找到的所述候选检索结果，确定所述歌曲检索结果；

所述计算单元具体用于：

9.根据权利要求8所述的装置，其特征在于，所述筛选单元具体用于：

将所述多个原始检索结果中的搜索词连续命中率大于第一阈值的原始搜索结果确定为所述候选检索结果。

10.根据权利要求8所述的装置，其特征在于，所述确定单元包括：

第一确定子单元，用于从查找到的所述候选检索结果中的每个候选检索结果中确定最长命中子串，所述最长命中子串是指在相应候选检索结构中连续命中的至少一个搜索词；

11.根据权利要求10所述的装置，其特征在于，所述筛选子单元具体用于：

12.根据权利要求10或11所述的装置，其特征在于，所述第二确定子单元具体用于：