CN111444380A

CN111444380A - 音乐搜索排序方法、装置、设备和存储介质

Info

Publication number: CN111444380A
Application number: CN202010224261.7A
Authority: CN
Inventors: 陈刚保; 周蓝珺; 潘树燊
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2020-07-24
Anticipated expiration: 2040-03-26
Also published as: CN111444380B

Abstract

本申请公开了一种音乐搜索排序方法、装置、设备和存储介质，属于搜索技术领域。该方法包括：获取多个搜索返回作品，及每个搜索返回作品的发布时间；基于每个搜索返回作品的发布时间，确定搜索返回作品为第一类作品或第二类作品，第二类作品的发布时间早于第一类作品的发布时间；分别获取每个搜索返回作品的文本匹配度和数值特征；确定第一类作品的时新性加权特征，时新性加权特征是采用发布时间计算出的时新性加权值；利用每个搜索返回作品的文本匹配度和数值特征、以及第二类作品的播放时长特征和第一类作品的时新性加权特征作为排序模型的输入，对多个搜索返回作品进行排序；输出排序后的搜索返回作品。

Description

音乐搜索排序方法、装置、设备和存储介质

技术领域

本申请涉及搜索技术领域，尤其涉及一种音乐搜索排序方法、装置、设备和存储介质。

背景技术

随着移动终端的普及，移动终端已经取代原来的动态图像专家组音频层3(MovingPicture Experts Group Audio Layer 3，MP3)播放器等设备，成为人们日常听音乐的首选。

用户在使用移动终端中的音乐软件听音乐时，除了可以听软件推荐、或者已经收藏的歌曲外，还可以通过音乐软件的搜索功能搜索相应的歌曲，然后播放欣赏。在实现本发明过程中，发明人发现现有技术存在如下问题，相比于网页检索，音乐领域中的检索排序有明显的特殊性，在音乐领域，每天更新的新作品数量巨大，在检索结果中需要平衡新作品与经典作品曝光量。利用向量空间模型等的经典排序模型，或是基于机器学习的排序模型，排序结果均存在新作品曝光量不够的问题。

发明内容

本申请实施例提供了一种音乐搜索排序方法、装置、设备和存储介质，保证排序方案对新作品更加公平，提高新作品的曝光量。所述技术方案如下：

一方面，提供了一种音乐搜索排序方法，所述方法包括：

获取多个搜索返回作品，及每个所述搜索返回作品的发布时间；

基于每个所述搜索返回作品的发布时间，确定所述搜索返回作品为第一类作品或第二类作品，所述第二类作品的发布时间早于所述第一类作品的发布时间；

分别获取每个所述搜索返回作品的文本匹配度和数值特征，所述文本匹配度是指搜索时使用的关键词与所述搜索返回作品的文本特征的匹配度，所述数值特征为所述搜索返回作品的特征中除播放时长特征外的数值项；

确定所述第二类作品的播放时长特征，所述播放时长特征用于指示最近一段时间内的播放情况；

确定所述第一类作品的时新性加权特征，所述时新性加权特征是采用发布时间计算出的时新性加权值；

利用每个所述搜索返回作品的文本匹配度和数值特征、以及所述第二类作品的播放时长特征和所述第一类作品的时新性加权特征作为排序模型的输入，对所述多个搜索返回作品进行排序；

输出排序后的所述搜索返回作品。

一方面，提供了一种音乐搜索排序装置，所述装置包括：

第一获取模块，被配置为获取多个搜索返回作品，及每个所述搜索返回作品的发布时间；

第一确定模块，被配置为基于每个所述搜索返回作品的发布时间，确定所述搜索返回作品为第一类作品或第二类作品，所述第二类作品的发布时间早于所述第一类作品的发布时间；

第二获取模块，被配置为分别获取每个所述搜索返回作品的文本匹配度和数值特征，所述文本匹配度是指搜索时使用的关键词与所述搜索返回作品的文本特征的匹配度，所述数值特征为所述搜索返回作品的特征中除播放时长特征外的数值项；

第二确定模块，被配置为确定所述第二类作品的播放时长特征，所述播放时长特征用于指示最近一段时间内的播放情况；

第三确定模块，被配置为确定所述第一类作品的时新性加权特征，所述时新性加权特征是采用发布时间计算出的时新性加权值；

排序模块，被配置为利用每个所述搜索返回作品的文本匹配度和数值特征、以及所述第二类作品的播放时长特征和所述第一类作品的时新性加权特征作为排序模型的输入，对所述多个搜索返回作品进行排序；

输出模块，被配置为输出排序后的所述搜索返回作品。

一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现前述音乐搜索排序方法。

一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现前述音乐搜索排序方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

在本申请实施例中，通过对第一类作品(也即新作品)采用和第二类作品(也即老作品)不同的方式进行分数计算。对于新作品和老作品，除了都会考虑文本匹配度和数值特征来保证搜索的匹配性外，对于老作品考虑的是播放时长特征，而在新作品计算分数时，考虑的不是播放时长而是发布时间，因为新作品上架时间短，播放时长必然较少，如果采用播放时长计算分数和老作品一起排序，十分不公平。而基于发布时间对新作品的特征进行提取，使得新作品可以以相对公平的方式进行排序，保证了新作品的排序最终也可以较为靠前，从而提高新作品的曝光量，进而提高点击率和平均播放时长。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一个示意性实施例的音乐搜索排序方法的流程示意图；

图2为本申请另一个示意性实施例的音乐搜索排序方法的流程示意图；

图3示出了本申请的音乐搜索过程示意图；

图4为本申请实施例的音乐搜索排序装置的结构框图；

图5是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

用户在终端设备运行的音乐软件搜索框中输入搜索关键词(Query)，例如歌曲名称或歌手名字；该搜索关键词被发送给服务器，服务器基于该搜索关键词，搜索到相关的作品，也即搜索返回作品。搜索返回作品可以是歌曲、视频、歌单等的信息。

对于搜索返回作品，服务器需要先对其进行排序，然后将排序后的搜索返回作品发送给用户的终端设备进行展示。

在本公开实施例中，上述音乐搜索排序方法由服务器执行，该服务器可以为云端服务器或本地服务器。

在前述说明中，针对的是音乐软件中的搜索，本申请的搜索方案也适用于，音乐网站页面搜索，或者其他方式的音乐搜索。

图1为本申请一个示意性实施例的音乐搜索排序方法的流程示意图。该方法可以由前述终端或服务器执行。如图2所示，该方法可以包括：

在步骤101中：获取多个搜索返回作品，及每个所述搜索返回作品的发布时间。

这里的搜索返回作品也即前文所述的用户在搜索过程中，服务器基于搜索关键词得到的作品。作品的发布时间可以基于这些作品的名称从数据库中获取到。

在步骤102中：基于每个所述搜索返回作品的发布时间，确定所述搜索返回作品为第一类作品或第二类作品。

多个搜索返回作品包括第一类作品和第二类作品，第二类作品的发布时间早于所述第一类作品的发布时间。

在本公开实施例中，对于搜索返回作品可以按照每个作品的发布时间，将其划分为第一类作品(也即新作品)和第二类作品(也即老作品)。例如，小于或等于发布时间阈值的为新作品，大于发布时间阈值的为老作品。例如，发布时间阈值可以为2天，发布时间小于或等于2的为新作品，反之，大于2天的为老作品。

在步骤103中：分别获取每个所述搜索返回作品的文本匹配度和数值特征。

其中，所述文本匹配度是指搜索时使用的关键词与所述搜索返回作品的文本特征的匹配度，所述数值特征为所述搜索返回作品的特征中除播放时长特征外的数值项。

在步骤104中：确定所述第二类作品的播放时长特征，所述播放时长特征用于指示最近一段时间内的播放情况。

在步骤105中：确定所述第一类作品的时新性加权特征，所述时新性加权特征是采用发布时间计算出的时新性加权值。

从步骤104和步骤105可以看出，对于第一类作品(也即新作品)和第二类作品(也即老作品)，本公开会以不同的方式进行分数计算。这里，新作品不采用播放时长计算分数，而是基于发布时间计算分数，主要是因为，新作品上架时间短，播放量可能不足，如果以播放时长计算分数，很难与老作品相抗衡，导致最终排序结果很难靠前甚至无法进入到排序结果，例如搜索返回作品有100项，而需要排序并返回给用户终端设备的只有15项，则新作品可能难以排入，从而影响新作品的曝光量和点击量。因此，新作品采用和老作品不同的方式进行分数计算，保证新作品也能够进入排序中靠前的位置。

在步骤106中：利用每个所述搜索返回作品的文本匹配度和数值特征、以及所述第二类作品的播放时长特征和所述第一类作品的时新性加权特征作为排序模型的输入，对所述多个搜索返回作品进行排序。

如前所述，在新作品计算分数时，考虑的不是播放时长而是发布时间，在这种前提下采用排序模型进行排序，保证了新作品的排序最终也可以较为靠前。

在步骤107中：输出排序后的所述搜索返回作品。

当该方法由服务器执行时，服务器基于搜索关键词得到搜索返回作品后，并不是直接将搜索返回作品发送给用户的终端设备，而是先进行排序，然后将排序后的结果返回给用户，使得在存在多个与用户搜索关键词相关性较高的结果时，可以将播放时长高或发布时间少的排到前面，从而可以被用户优先点击。

当该方法由终端执行时，终端基于搜索关键词得到搜索返回作品后，对搜索返回作品进行排序，然后将排序后的结果输出显示。

图2为本申请另一个示意性实施例的音乐搜索排序方法的流程示意图。该方法可以由前述终端或服务器执行。如图2所示，该流程可以包括：

在步骤201中：获取训练样本。

可选地，该步骤201可以包括：获取搜索产生的样本(也即搜索得到的作品，这里作为样本)；基于每个样本的被点击情况(包括被点击和未被点击)和平均播放时长，生成对应档的标签，采用具有所述标签的样本作为所述训练样本。这里的点击情况分为被点击和未被点击。平均播放时长为播放总时长/播放总次数。

在本公开实施例在，训练样本是基于用户对于搜索结果的点击和播放情况产生的。示例性地，搜索服务器基于用户搜索关键词(Query)产生搜索返回作品，这些搜索返回作品即为前述样本。搜索服务器将上述搜索返回作品发送给用户的终端设备；接收用户的点击、播放等动作，并记录点击和播放情况。这里，产生样本的过程既可以是实际发生的，也可以是通过模拟产生的。

在步骤201中，服务器基于点击和播放情况为样本生成标签。不同的平均播放时长可以对应不同档的标签，从而使得这些训练样本能够在这些标签作用下存在排序关系，该排序关系可以在训练过程中对于基于分数产生的排序的准确性进行验证，从而计算损失，然后产生反馈，调整模型参数。

例如，标签可以分为K档，其中，未被用户点击的为第1档，被用户点击的可以按照平均播放时长分为K-1档，平均播放时长越长，则对应的标签档位越高。

在步骤202中：采用所述训练样本训练神经网络模型，所述神经网络模型的损失函数包括soft_zero_one损失函数和approx_ndcg损失函数。

在该实现方式中，获取到训练样本后，需要计算每个训练样本的分数，这里计算分数的方式与后续采用模型分类时计算分数的方式相同，可以参见步骤204的详细过程，这里不做赘述。

在本公开实施例中，神经网络模型可以采用基于Tensorflow开发的tf-ranking深度神经网络排序框架。该tf-ranking深度神经网络排序框架可以采用多任务学习的方式进行训练，也即同时采用多个损失函数进行训练。

例如，本申请同时采用了基于Pair wise的soft_zero_one损失函数和基于Listwise的approx_ndcg损失函数。approx_ndcg损失函数是一种近似标准化贴现累积收益(Normalized Discounted cumulative gain，NDCG)指标来衡量损失的损失函数。NDCG也即归一化折损累计增益，是一种排序质量评价标准，具有位置加权的效果。这里位置加权的效果是指：由于这种标准对于排序靠前的结果错误的损失比排序靠后的结果错误的损失大，使得这种标准可以保证排序靠前的结果的准确性，与本申请从搜索结果中选取最相关的若干个排序反馈给用户的目的相契合。

其中，soft_zero_one损失函数是以一对搜索结果的偏序关系来计算损失函数，其公式为：

公式(1)中为一对搜索结果的分数，当一对搜索结果的分数大小关系，与这一对搜索结果的标签档位大小情况相同，则该损失函数的值为0，否则为1。

approx_ndcg损失函数是以搜索结果列表的顺序关系来计算损失函数，其公式为：

其中，N为返回的搜索结果的总数，n为最终排序结果包含的项数，n≤N。

其中，

s_x,y为两个搜索结果的分数结果X中排名x和y的高低，也即s_x,y＝s_x-s_y。α为比例系数，公式(2)中，r(x)为相关性等级，比如0,1,2,3，0表示不相关，3表示最相关，也即本申请中的标签。

本申请中神经网络模型的损失函数为：

loss＝soft_zero_one+lambda*approx_ndcg (3)

公式(3)中lambda为权重系数，该权重系数可以在训练过程中人工调整，从而确定出效果最好的权重系数。

在本公开实施例中，该权重系数的数值可以为0.1，也即本公开以Pair wise方案为主，通过叠加List wise的方案，使得排序结果不仅考虑了任意两项的顺序关系，还考虑了整体的排序情况。

soft_zero_one损失函数可以基于排序的结果和实际标签对应的顺序的结果的异同，得到损失，例如排序结果A在B之前，而实际按照标签应该是B在A之前，则此时损失为1，如果实际按照标签应该是A在B之前，则此时损失为0。approx_ndcg损失函数则是基于排序后的整体顺序，与实际按照标签应该的顺序之间的差异，确定损失。

该步骤中，模型训练采用了soft_zero_one损失函数和approx_ndcg损失函数，在其他实现方式中，也可以仅采用上述两个损失函数中的一个，或者采用其他损失函数来实现，例如采用0/1损失函数。

通过训练过程中对于模型参数的调节，使得损失函数最小化，完成模型训练。这里，模型中的参数可以是指每个搜索结果的各项分数的权重，因为每个搜索结果基于文本特征可以得到多个文本分数，基于数值特征可以得到多个数值特征，基于播放时长(发布时间)可以得到播放时长特征(时新性加权特征)。

通过上述步骤训练得到的模型，可以用于后续搜索返回作品的排序工作。

这里，步骤201和202进行模型训练的服务器与搜索服务器可以是不同的服务器，当然也可以是相同的服务器。同样地，这里模型训练的服务器与后续进行排序的服务器可以是相同的服务器，也可以是不同的服务器。这里的步骤201和202为可选步骤。

在步骤203中：获取多个搜索返回作品，及每个所述搜索返回作品的发布时间。

在步骤204中：基于每个所述搜索返回作品的发布时间，确定所述搜索返回作品为第一类作品或第二类作品。

对于老作品和新作品，后续计算分数时的方案不同，具体参见步骤205、206和207。

在步骤205中：分别获取每个所述搜索返回作品的文本匹配度和数值特征，所述文本匹配度是指搜索时使用的关键词与所述搜索返回作品的文本特征的匹配度，所述数值特征为所述搜索返回作品的特征中除播放时长特征外的数值项。

在计算搜索返回作品的分数时，先要获取每个搜索返回作品的特征。这里的特征包括：文本特征、数值特征和播放时长特征。

其中，文本特征也即搜索返回作品中的文本项，例如包括歌曲名、歌手、专辑名等。数值特征为所述搜索返回作品的特征中除播放时长特征外的数值项，例如包括发布时间、歌曲类型(采用数值表示)和播放总数。播放时长特征用于指示最近一段时间内的播放情况，可以反映该搜索返回作品的热度，例如包括最近一段时间内的播放次数、日平均播放次数、平均播放时长等。

这里，播放时长特征可以从每日播放日志中统计得出，这里的最近一段时间可以为7天。

这里，老作品和新作品都需要计算文本匹配度，从而保证排序靠前的选项与用户搜索的关键词匹配。老作品和新作品都需要计算数值特征，文本匹配度和数值特征，新老作品的计算方式可以相同。而除了文本匹配度外，老作品还计算播放时长特征，这样可以在文本匹配度相当时，按照播放时长特征的大小排序，使得播放多的在播放少的之前，从而可以将多数用户喜爱的优先推荐给用户。而对于新作品而言，由于发布时间短，播放时长并不能完全体现出该作品的质量，因此无法采用真实播放时长进行排序，此时采用时新性加权特征，保证新作品也能够和老作品一起排序后反馈给用户。

示例性地，确定老作品和新作品的文本匹配度的方式相同，将用户搜索时的关键词分别与各个文本特征进行匹配，得到各个文本特征的分数。这里，匹配的方式就是计算二者的相似度。

在步骤206中：确定所述第二类作品的播放时长特征，所述播放时长特征用于指示最近一段时间内的播放情况。

示例性地，确定老作品和新作品的数值特征的方式相同，例如将数值特征取对数值作为各个数值特征的分数。下面以播放量分数计算为例，说明数值特征的计算方式：例如，播放量分数如下：min[log(n)/log(90分位数),1.5]，这里，n为播放量，90分位数为全局播放量的90分位数，全局播放量是指所有作品的平均播放量。分位数是指全局播放量中从小到大排序，按从小到大的顺序处于第90％位置的数。

示例性地，确定所述老作品的播放时长特征，包括：

基于所述老作品的每日播放数，确定平滑指数；

基于所述平滑指数对所述老作品的平均播放时长进行平滑处理；

基于平滑处理后的所述平均播放时长、所述每日播放数和所述老作品的作品时长，计算所述老作品的播放时长特征。

其中，平均播放时长为每日播放总时长/播放总次数。

在本公开实施例中，播放时长特征是基于平均播放时长、每日播放数和作品时长等计算得到的。由于平均播放时长的置信度与播放次数相关，因此，可以基于每日播放数计算出平滑指数，对播放次数少的作品的平均播放时长进行平滑，使得平均播放时长的数值降低。

例如，可以采用下述公式(4)确定平滑指数smooth_rate：

其中，C_play为每日播放数，C_threshold为具有统计意义的最小播放数，这个可以根据需要设置，例如可以为20，低于该数值说明播放数过少，平均播放时长置信度低，需要平滑处理。

如果平滑指数小于1时，可以采用下面的公式(5)进行平滑处理：

T_{smooth_play}＝min(T_avgplay*smooth_rate，T_clip) (5)

其中，T_{smooth_play}为平滑后的平均播放时长，T_avgplay为平均播放时长，T_clip为播放时长截断值，默认为全局播放时长90分位数，全局播放时长是指所有作品的平均播放时长。分位数是指全局播放时长中从小到大排序，按从小到大的顺序处于第90％位置的数。通过设置截断值，对播放次数少，但平均播放时长很长的作品的平均播放时长进一步进行平滑，避免这种作品的播放时长特征过高。

如果平滑指数为1，则说明播放次数不会影响置信度，无需进行上述处理。

最后，采用公式(6)即可计算出老作品的播放时长特征：

其中，wilson_interval指统计量的威尔逊下界，采用威尔逊下界计算播放时长特征可以增加该播放时长特征的置信度，T_duration为作品时长。

在步骤207中：确定所述第一类作品的时新性加权特征，所述时新性加权特征是采用发布时间计算出的时新性加权值。

示例性地，确定所述新作品的时新性加权特征，包括：

基于所述新作品的发布时间确定对应的发布时间分数；

基于所述新作品的类型确定对应的类型分数；

基于所述发布时间分数和所述类型分数确定所述时新性加权特征。

这里，除了发布时间外，新作品还考虑到了新作品的类型，这里的类型也可以包括官方发布、翻唱、用户上传等，不同的类型对应的作品品质不同。计算时新性加权特征考虑作品类型，可以让质量更高的作品时新性加权特征更高，使得不同品质的新作品排序也存在先后。

例如，可以将发布时间划分区间，每个区间对应一个分数。例如，按照新作品和老作品的发布时间阈值划分区间，则大于该发布时间阈值，属于老作品，没有发布时间分数；如果小于或等于该发布时间阈值，则有发布时间分数。例如，如果发布时间≤DAY_new(发布时间阈值，默认为2天)，发布时间分数

可以根据需求设置。再例如，发布时间可以分为多段，临界值分别为第一天数、第二天数等，若发布时间小于第一天数，则分数为第一分数，若发布时间大于或等于第一天数且小于第二天数，则分数为第二分数，依次分为多个区间，对应多个分数。因此，本申请可以基于发布时间确定时新性加权特征。

例如，基于新作品的类型确定对应的类型分数，同样可以将每种类型设定一个类型分数。确定了作品的类型即可确定出对应的类型分数。如，类型分数s_type＝scale，如果新作品类型为官方发布(例如官方发布的MV)，则scale＝1，如果新作品类型为其他，则scale＝0.6，这里仅为举例，实际scale的值可以根据需要划分和设定。

其中，基于所述发布时间分数和所述类型分数确定所述时新性加权特征，包括：

采用计算老作品播放时长特征的方式计算所有新作品的播放时长特征；

确定所述所有新作品的播放时长特征的目标分位数；

采用所述目标分位数、所述发布时间分数和所述类型分数的乘积作为所述时新性加权特征。

按照该方式计算的时新性加权特征也即是采用发布时间对播放时长加权计算得到的时新性加权值。

采用如下公式(7)计算新作品的是时新性加权特征S_new：

S_new＝percent(s_pre)*s_pubdate*s_type (7)

其中，percent(s_pre)为s_pre的全局目标分位数，目标分位数为60分位数，s_pre为采用计算老作品播放时长特征的方式计算新作品的播放时长特征。

进一步地，所述方法还包括：

当计算出的所述新作品的播放时长特征，大于所述时新性加权特征(也即播放时长特征对应的分数大于时新性加权特征对应的时新性加权值)，采用所述播放时长特征替代所述时新性加权特征。

由于存在部分作品虽然发布时间短，但是按照播放时长打分高的情况，这种情况下可以采用播放时长特征作为该新作品的分数，使其具有更好的排名。

示例性地，采用如下公式(8)确定时新性加权特征：

S_new＝max(percent(s_pre)*s_pubdate*s_type，s_pre) (8)

进一步地，所述方法还包括：

基于搜索词确定搜索意图，所述搜索意图用于指示搜索类型；

基于所述搜索意图和所述搜索返回作品中与所述搜索意图对应的搜索类型中新作品的比例，确定加权值；

采用加权值乘以所述时新性加权特征再加所述时新性加权特征，得到最终的时新性加权特征。

其中，搜索类型可以是指歌曲、歌手、歌单等，搜索意图可以通过对搜索词进行语义分析实现。考虑到不同的检索意图对应的搜索类型对于时新度有不同要求，因此可以在计算时新性加权特征时调整新作品的加权强度，参考下述公式(9)：

S＝S_new*(1+s_intent) (9)

s_intent为加权值。s_intent可以基于搜索意图对应的类型中新作品的比例得到，例如，用户搜索意图为影视的搜索词query，相关的歌曲的数量为50，其中新作品的数量为5，新作品的比例为10％，则采用该比例对应的加权值进行计算，比例和加权值的关系可以事先设定。

在步骤208中：利用每个所述搜索返回作品的文本匹配度和数值特征、以及所述第二类作品的播放时长特征和所述第一类作品的时新性加权特征作为排序模型的输入，对所述多个搜索返回作品进行排序。

在经过步骤207后，每个搜索返回作品对应一组分数，例如一个老作品对的一组分数包括文本匹配度、数值特征和播放时长特征，一个新作品对的一组分数包括文本匹配度、数值特征和时新性加权特征。

将各个搜索返回作品的对应的分数输入到排序模型中进行排序，得到排序结果。

在步骤209中：输出排序后的所述搜索返回作品。

图3示出了本申请的音乐搜索过程示意图，参见图3，用户通过终端设备中的音乐软件输入关键词“飞翔”进行搜索，服务器通过搜索和排序后，将排序后的所述搜索返回作品发送给用户的终端设备，终端设备将该排序结果显示在音乐软件的界面上，这些结果中可以包括名称与飞翔相关的歌曲、也可以包括与飞翔相关的歌手演唱的歌曲，其中，可以包括新作品，例如“自由飞翔”，此时用户可以通过点击播放按钮播放该新作品。

通过采用本申请的方案进行音乐搜索结果的排序，可以显著提高新作品的点击率(Click-Through-Rate，CTR)(也即总点击次数/总展示次数)和平均播放时长。在模拟在线实验中，CTR(相对原始基线)提高7％，播放时长提高8％左右。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图4为本申请实施例的音乐搜索排序装置的结构框图。该装置可以实现成为电子设备的全部或一部分。如图4所示，该装置包括：第一获取模块301、第一确定模块302、第二获取模块303、第二确定模块304、第三确定模块305、排序模块306和输出模块307。

其中，第一获取模块301，被配置为获取多个搜索返回作品，及每个所述搜索返回作品的发布时间；

第一确定模块302，被配置为基于每个所述搜索返回作品的发布时间，确定所述搜索返回作品为第一类作品或第二类作品，所述第二类作品的发布时间早于所述第一类作品的发布时间；

第二获取模块303，被配置为分别获取每个所述搜索返回作品的文本匹配度和数值特征，所述文本匹配度是指搜索时使用的关键词与所述搜索返回作品的文本特征的匹配度，所述数值特征为所述搜索返回作品的特征中除播放时长特征外的数值项；

第二确定模块304，被配置为确定所述第二类作品的播放时长特征，所述播放时长特征用于指示最近一段时间内的播放情况；

第三确定模块305，被配置为确定所述第一类作品的时新性加权特征，所述时新性加权特征是采用发布时间计算出的时新性加权值；

排序模块306，被配置为利用每个所述搜索返回作品的文本匹配度和数值特征、以及所述第二类作品的播放时长特征和所述第一类作品的时新性加权特征作为排序模型的输入，对所述多个搜索返回作品进行排序；

输出模块307，被配置为输出排序后的所述搜索返回作品。

可选地，第三确定模块305，被配置为基于所述第一类作品的发布时间确定对应的发布时间分数；基于所述第一类作品的类型确定对应的类型分数；基于所述发布时间分数和所述类型分数确定所述时新性加权特征。

可选地，第三确定模块305，被配置为采用计算第二类作品播放时长特征的方式计算所有第一类作品的播放时长特征；确定所述所有第一类作品的播放时长特征的目标分位数；采用所述目标分位数、所述发布时间分数和所述类型分数的乘积作为所述时新性加权特征。

可选地，第三确定模块305，还被配置为当计算出的所述第一类作品的播放时长特征，大于所述时新性加权特征，采用所述播放时长特征替代所述时新性加权特征。

可选地，第三确定模块305，还被配置为基于搜索词确定搜索意图，所述搜索意图用于指示搜索类型；基于所述搜索意图和所述搜索返回作品中与所述搜索意图对应的搜索类型中第一类作品的比例，确定加权值；采用加权值乘以所述时新性加权特征再加所述时新性加权特征，得到最终的时新性加权特征。

可选地，所述第二确定模块304，被配置为基于所述第二类作品的每日播放数，确定平滑指数；基于所述平滑指数对所述第二类作品的平均播放时长进行平滑处理；基于平滑处理后的所述平均播放时长、所述每日播放数和所述第二类作品的作品时长，计算所述第二类作品的播放时长特征。

可选地，所述第一获取模块301，还被配置为被配置为获取训练样本；

该装置还包括：

训练模块308，被配置为采用所述训练样本训练神经网络模型，所述神经网络模型的损失函数包括soft_zero_one损失函数和approx_ndcg损失函数，所述神经网络模型用于基于每个所述搜索返回作品的分数对所述搜索返回作品进行排序。

可选地，所述第一获取模块301，包括：

样本获取子模块311，被配置为获取搜索产生的样本；

标签生成子模块312，被配置为基于每个样本的被点击情况和平均播放时长，生成对应档的标签，采用具有所述标签的样本作为所述训练样本。

本申请实施例还提供了一种电子设备，该电子设备可以是前述终端或服务器。该电子设备可以包括处理器和存储器，所述存储器存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现前述方法。

图5是本申请实施例提供的一种服务器的结构示意图。参见图5，服务器400包括中央处理单元(Central Processing Unit，CPU)401、包括随机存取存储器(Random AccessMemory，RAM)402和只读存储器(Read-Only Memory，ROM)403的系统存储器404，以及连接系统存储器404和中央处理单元401的系统总线405。服务器400还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output，I/O系统)406，和用于存储操作系统413、应用程序414和其他程序模块415的大容量存储设备407。

基本输入/输出系统406包括有用于显示信息的显示器408和用于用户输入信息的诸如鼠标、键盘之类的输入设备409。其中显示器408和输入设备409都通过连接到系统总线405的输入输出控制器410连接到中央处理单元401。基本输入/输出系统406还可以包括输入输出控制器410以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器410还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备407通过连接到系统总线405的大容量存储控制器(未示出)连接到中央处理单元401。大容量存储设备407及其相关联的计算机可读介质为服务器400提供非易失性存储。也就是说，大容量存储设备407可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、带电可擦可编程只读存储(Electrically Erasable Programmable read only memory，EEPROM)、闪存或其他固态存储其技术，只读光盘(Compact Disc Read-Only Memory，CD-ROM)、数字通用光盘(Digital Video Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器404和大容量存储设备407可以统称为存储器。

根据本公开的各种实施例，服务器400还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器400可以通过连接在系统总线405上的网络接口单元411连接到网络412，或者说，也可以使用网络接口单元411来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。CPU 401通过执行该一个或一个以上程序来实现前述音乐搜索排序方法。

本领域技术人员可以理解，图5中示出的结构并不构成对服务器400的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种音乐搜索排序方法，其特征在于，所述方法包括：

输出排序后的所述搜索返回作品。

2.根据权利要求1所述的方法，其特征在于，确定所述第一类作品的时新性加权特征，包括：

基于所述第一类作品的发布时间确定对应的发布时间分数；

基于所述第一类作品的类型确定对应的类型分数；

3.根据权利要求2所述的方法，其特征在于，基于所述发布时间分数和所述类型分数确定所述时新性加权特征，包括：

采用计算第二类作品播放时长特征的方式计算所有第一类作品的播放时长特征；

确定所述所有第一类作品的播放时长特征的目标分位数；

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

当计算出的所述第一类作品的播放时长特征，大于所述时新性加权特征，采用所述播放时长特征替代所述时新性加权特征。

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

基于所述搜索意图和所述搜索返回作品中与所述搜索意图对应的搜索类型中第一类作品的比例，确定加权值；

6.根据权利要求1所述的方法，其特征在于，确定所述第二类作品的播放时长特征，包括：

基于所述第二类作品的每日播放数，确定平滑指数；

基于所述平滑指数对所述第二类作品的平均播放时长进行平滑处理；

基于平滑处理后的所述平均播放时长、所述每日播放数和所述第二类作品的作品时长，计算所述第二类作品的播放时长特征。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

获取训练样本；

采用所述训练样本训练神经网络模型，所述神经网络模型的损失函数包括soft_zero_one损失函数和approx_ndcg损失函数，所述神经网络模型用于基于每个所述搜索返回作品的分数对所述搜索返回作品进行排序。

8.根据权利要求7所述的方法，其特征在于，所述获取训练样本，包括：

获取搜索产生的样本；

基于每个样本的被点击情况和平均播放时长，生成对应档的标签，采用具有所述标签的样本作为所述训练样本。

9.一种音乐搜索排序装置，其特征在于，所述装置包括：

输出模块，被配置为输出排序后的所述搜索返回作品。

10.根据权利要求9所述的装置，其特征在于，所述第三确定模块，被配置为基于所述第一类作品的发布时间确定对应的发布时间分数；基于所述第一类作品的类型确定对应的类型分数；基于所述发布时间分数和所述类型分数确定所述时新性加权特征。

11.根据权利要求10所述的装置，其特征在于，所述第三确定模块，被配置为采用计算第二类作品播放时长特征的方式计算所有第一类作品的播放时长特征；确定所述所有第一类作品的播放时长特征的目标分位数；采用所述目标分位数、所述发布时间分数和所述类型分数的乘积作为所述时新性加权特征。

12.根据权利要求11所述的装置，其特征在于，所述第三确定模块，还被配置为当计算出的所述第一类作品的播放时长特征，大于所述时新性加权特征，采用所述播放时长特征替代所述时新性加权特征。

13.根据权利要求11所述的装置，其特征在于，所述第三确定模块，还被配置为基于搜索词确定搜索意图，所述搜索意图用于指示搜索类型；基于所述搜索意图和所述搜索返回作品中与所述搜索意图对应的搜索类型中第一类作品的比例，确定加权值；采用加权值乘以所述时新性加权特征再加所述时新性加权特征，得到最终的时新性加权特征。

14.根据权利要求9所述的装置，其特征在于，所述第二确定模块，被配置为基于所述第二类作品的每日播放数，确定平滑指数；基于所述平滑指数对所述第二类作品的平均播放时长进行平滑处理；基于平滑处理后的所述平均播放时长、所述每日播放数和所述第二类作品的作品时长，计算所述第二类作品的播放时长特征。

15.根据权利要求9至14任一项所述的装置，其特征在于，所述第一获取模块，还被配置为被配置为获取训练样本；

所述装置还包括：

训练模块，被配置为采用所述训练样本训练神经网络模型，所述神经网络模型的损失函数包括soft_zero_one损失函数和approx_ndcg损失函数，所述神经网络模型用于基于每个所述搜索返回作品的分数对所述搜索返回作品进行排序。

16.根据权利要求15所述的装置，其特征在于，所述第一获取模块，包括：

样本获取子模块，被配置为获取搜索产生的样本；

标签生成子模块，被配置为基于每个样本的被点击情况和平均播放时长，生成对应档的标签，采用具有所述标签的样本作为所述训练样本。

17.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至8任一项所述的方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至8任一项所述的方法。