CN113688280A

CN113688280A - 一种排序方法、装置、计算机设备和存储介质

Info

Publication number: CN113688280A
Application number: CN202110814492.8A
Authority: CN
Inventors: 谭又伟; 李泽隆
Original assignee: Guangzhou Lizhi Network Technology Co ltd
Current assignee: Guangzhou Lizhi Network Technology Co ltd
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2021-11-23
Anticipated expiration: 2041-07-19
Also published as: CN113688280B

Abstract

本发明涉及一种排序方法、装置、计算机设备和存储介质，该方法包括：接收检索用户发起的声音数据检索请求，并获取所述检索用户的检索词，根据检索词得到检索结果声音数据后，根据检索用户对检索结果声音数据的操作信息，生成检索节点数据并将检索节点数据转换为检索词特征向量、用户信息特征向量以及检索结果声音数据特征向量，进一步获取所述检索词特征向量、所述用户信息特征向量与所述检索结果声音数据的相关特征匹配度，并将所述检索词特征向量、所述用户信息特征向量、所述检索结果声音数据以及所述相关特征匹配度输入梯度提升决策树模型，输出所述检索结果声音数据的排序结果，无需投入大量的人工特征工程工作，并大大提升检索精确度。

Description

一种排序方法、装置、计算机设备和存储介质

技术领域

本发明实施例涉及信息处理的技术领域，尤其涉及一种排序方法、装置、计算机设备和存储介质。

背景技术

在音视频直播场景中，当用户希望观看某一类型的直播时，会在直播平台上进行关键词搜索，而在直播平台的后台会根据用户提供的关键词进行音视频数据的检索，并将检索结果以排序的方式反馈给用户，以便用户选择。检索结果与用户意愿的适配度往往与检索方法息息相关。

现有技术中，对音视频数据的检索往往采用布尔模型(Boolean Model)，是基于集合论和布尔代数的一种简单检索模型，它的特点是查找那些对于某个查询词返回为“真”的文档。在该模型中，一个查询词就是一个布尔表达式，包括关键词以及逻辑运算符，但是使用布尔模型进行完全匹配往往会导致返回的结果太多或者太少。此外还有向量空间模型(Vector Space Model，VSM)，即把对文本内容的处理简化为向量空间中的向量运算，并且它以空间上的相似度表达语义的相似度，但是基于向量之间的独立性假设，也即权重计算没有考虑向量之间的位置关系，也没有考虑向量的长度对权重的影响，计算量大，并且新文档加入时需要重新计算向量的权重。第三种是BM25模型，属于词袋模型，是用来计算某一个目标文档 (Document)相对于一个查询关键字(Query)的“相关性”(Relevance)的流程，但是内容相关性仅考虑检索词和文档的tf-idf(文档中关键词词频参数)以及文档长度等因素，很难融合点击反馈、文档质量分、当前上下文、用户偏好等更多的排序因素。

所以基于上述每个方法的检索都存在各个检索方法不同的缺点，造成检索结果不够精准的问题。

发明内容

本发明实施例提出了一种排序方法、装置、计算机设备和存储介质，以解决在声音数据检索的场景中基于现有检索方法，检索结果不够精确的问题。

第一方面，本发明实施例提供了一种排序方法，包括：

接收检索用户发起的声音数据检索请求；

针对所述检索请求，获取所述检索用户的检索词；

获取针对所述检索词的检索结果声音数据；

根据所述检索用户对所述检索结果声音数据的操作信息，生成检索节点数据；所述操作信息包括所述检索用户的用户信息以及所点击的所述检索结果声音数据的特征信息；

将所述检索节点数据转换为检索词特征向量、用户信息特征向量以及检索结果声音数据特征向量；

获取所述检索词特征向量、所述用户信息特征向量与所述检索结果声音数据的相关特征匹配度；

将所述检索词特征向量、所述用户信息特征向量、所述检索结果声音数据以及所述相关特征匹配度输入梯度提升决策树模型，输出所述检索结果声音数据的排序结果。

第二方面，本发明实施例还提供了一种排序装置，其特征在于，包括：

声音数据检索请求接收模块，用于接收检索用户发起的声音数据检索请求；

检索词获取模块，用于针对所述检索请求，获取所述检索用户的检索词；

检索结果声音数据获取模块，用于获取针对所述检索词的检索结果声音数据；

检索节点数据生成模块，用于根据所述检索用户对所述检索结果声音数据的操作信息，生成检索节点数据；所述操作信息包括所述检索用户的用户信息以及所点击的所述检索结果声音数据的特征信息；

特征向量转换模块，用于将所述检索节点数据转换为检索词特征向量、用户信息特征向量以及检索结果声音数据特征向量；

相关特征匹配度获取模块，用于获取所述检索词特征向量、所述用户信息特征向量与所述检索结果声音数据的相关特征匹配度；

排序结果输出模块，用于将所述检索词特征向量、所述用户信息特征向量、所述检索结果声音数据以及所述相关特征匹配度输入梯度提升决策树模型，输出所述检索结果声音数据的排序结果。

第三方面，本发明实施例还提供了一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面中任一项所述的排序方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如第一方面中任一项所述的排序方法。

在本实施例中，接收检索用户发起的声音数据检索请求；针对检索请求，获取检索用户的检索词；获取针对检索词的检索结果声音数据；根据检索用户对检索结果声音数据的操作信息，生成检索节点数据；操作信息包括检索用户的用户信息以及检索声音数据的特征信息；将检索节点数据转换为检索词特征向量、用户信息特征向量以及检索结果声音数据特征向量；获取检索词特征向量、用户信息特征向量与检索结果声音数据的相关特征匹配度；将检索词特征向量、用户信息特征向量、检索结果声音数据以及的相关特征匹配度输入梯度提升决策树模型，输出所述检索结果声音数据的排序结果，一方面，解决了单一模型训练，存在对应缺陷无法规避的问题，另一方面，无需依赖综合利用用户的query、用户行为信息以及声音文本内容、声音统计类信息、主播统计类信息结合GBDT模型构建多模态学习模型,实现多种模态数据特征的充分融合,并据此对声音的搜索进行排序,大大提升了排序结果的精确率以及用户点击率。

附图说明

图1为本发明实施例一提供的一种排序方法的流程图；

图2为本发明实施例一提供的session组合示例图；

图3是本发明实施例一提供的实例流程示意图；

图4为本发明实施例二提供的一种排序装置的结构示意图；

图5为本发明实施例三提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

名词解释：

布尔模型(Boolean Model)

布尔(Boolean)模型是基于集合论和布尔代数的一种简单检索模型。它的特点是查找那些对于某个查询词返回为“真”的文档。在该模型中，一个查询词就是一个布尔表达式，包括关键词以及逻辑运算符。通过布尔表达式，可以表达用户希望文档所具有的特征。由于集合的定义是非常直观的，Boolean模型提供了一个信息检索系统用户容易掌握的框架。查询串通常以语义精确的布尔表达式的方式输入。

向量空间模型(Vector Space Model，VSM)

VSM概念简单，即把对文本内容的处理简化为向量空间中的向量运算，并且它以空间上的相似度表达语义的相似度，直观易懂。当文档被表示为文档空间的向量，就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。

BM25模型

BM25属于词袋模型，是用来计算某一个目标文档(Document)相对于一个查询关键字 (Query)的“相关性”(Relevance)的流程。BM25认为：词频和相关性之间的关系是非线性的，具体来说，每一个词对于文档相关性的分数不会超过一个特定的阈值，当词出现的次数达到一个阈值后，其影响不再线性增长，而这个阈值会与文档本身有关。达到的效果是，某一个单词对最后分数的贡献不会随着词频的增加而无限增加。

实施例一

图1为本发明实施例一提供的一种排序方法的流程图，该方法可以由排序装置来执行，该排序装置可以由软件和/或硬件实现，可配置在计算机设备中，例如，服务器、工作站、个人电脑，等等，具体包括如下步骤：

步骤101、接收检索用户发起的声音数据检索请求；

本发明实施例中，在声音数据检索场景中，当用户在检索栏中输入检索内容，并点击搜索按钮，那么就相当于发起了声音数据的检索请求，后台会根据检索请求进行下一步的操作。

步骤102、针对所述检索请求，获取所述检索用户的检索词；

本发明实施例中，后台根据用户输入的检索内容，抽取其中的关键词。其中，抽取关键词的同时获取检索用户的用户信息，即检索用户的基本信息。

进一步地，抽取用户检索词通常是对用户初步输入的检索内容进行提取，并进行分词操作，再过滤分词结果，抽取其中的检索关键词。

步骤103、获取针对所述检索词的检索结果声音数据；

本发明实施例中，根据提取的检索关键词，在后台声音数据库中进行匹配，提取匹配检索结果声音数据。

可以理解地，声音数据存储在数据库中时以声音数据的声音关键词，声音的标签以及该声音数据的主播信息进行存储，并且声音标签通常包括声音的一级标签和二级标签，主播信息也包括主播的播放统计信息。

当然，在实际应用中，上述声音数据还可以包含其他统计信息，对于具体内容针对不同的使用场景而有所不同，本发明实施例对此不加以具体限制。

步骤104、根据所述检索用户对所述检索结果声音数据的操作信息，生成检索节点数据；所述操作信息包括所述检索用户的用户信息以及所点击的所述检索结果声音数据的特征信息；

本发明实施例中，在获取针对用户的检索词的检索结果声音数据后，返回给用户，用户针对检索结果进行进一步操作，通常为点击操作和播放操作，针对上述操作信息，生成检索节点数据。

如图2所示，session为一个检索节点，用户输入检索query后同一次请求下的点击行为属于同一个session，用户下一次请求与上一次的请求结束的时间如果不超过20秒，则认为两次请求的点击行为是同一个session。

其中，Ui表示用户i，Ii表示声音i，声音i由声音标题、声音一级标签、声音二级标签、声音关键词组成。

优选地，所述步骤104，具体包括：子步骤A1-A4；

子步骤A1、获取在预设操作时间内所述检索用户对所述检索结果声音数据的操作数据；

具体地，在针对用户的一个检索行为，获取在预设时间内用户对检索结果的操作数据，其中，操作数据可以包括点击操作以及播放时长数据。

子步骤A2、获取所述检索结果声音数据的标题、声音唯一标识、主播信息、标签、声音关键词以及声音文本数据；

具体地，并且获取检索结果声音数据，尤其是被用户进行点击操作的结果声音数据的标题、声音唯一标识、主播信息、标签、声音关键词以及声音文本数据。

子步骤A3、分别对所述检索词和所述检索结果声音数据的标题进行分词操作，得到检索分词结果和声音标题分词结果；

具体地，不仅针对用户输入的检索内容进行分词操作，还要对检索结果声音数据的信息进行分词操作，例如对其标题进行分词操作，并过滤掉停用词，最后得到检索分词结果和声音标题分词结果。

子步骤A4、将所述检索用户的用户信息、所述检索词分词结果、所述声音标题分词结果、所述声音唯一标识、所述主播信息、所述标签以及所述声音关键词合并生成检索节点数据。

具体地，再将上述得到的用户信息，检索词分词结果，声音标题分词结果，唯一标识、主播信息、标签以及声音关键词合并生成检索节点数据。

例如最后得到的检索节点数据seesion为Query1分词结果 I1名字分词结果 I1IDI1 主播ID I1一级标签 I1二级标签 I1关键词。

其中，一个session数据中包含用户信息，声音信息，用户对该声音信息的操作数据，例如，针对用户一，即U1在检索词一query1后对检索结果声音数据I1、I3和I8进行了点击操作，其中，I1的播放时长32秒，I3的播放时长26秒，I8的播放时长46秒，而针对检索词二query2的检索结果，用户一U1对检索结果声音数据I2、I6以及I5进行了点击操作，并且I2的播放时长198秒，I6的播放时长32秒，以及i5de播放时长59秒，但是由于用户针对query1和query2的点击操作中间间隔大于20秒，所以用户针对query1的结果数据的点击操作生成一个检索节点数据，即session1，针对query2的结果数据的点击操作生成另一个检索节点数据，即session2。同样地，如果有一个用户二，即U2，针对检索行为query3 和query4分别进行了结果数据的点击操作，并且两个点击操作的间隔小于20秒，那么针对检索行为query3和query4的结果数据点击操作生成一个检索节点数据，即session3。

可以理解地，上述设置的相邻两个检索点击的预设操作时间为20秒并不是一定的，针对不同的应用场景需要相关技术人员进行不同的设置，本发明实施例对此不加以具体限制。

步骤105、将所述检索节点数据转换为检索词特征向量、用户信息特征向量以及检索结果声音数据特征向量；

本发明实施例中，将上述步骤得到的检索节点数据输入到word2vec模型进行训练，获得每个声音ID、主播ID、词、标签的特征向量，其中，声音的标题分词结果是放在声音id的前面，其实这里有一种思想在里面，可以认为在用户的播放行为中，用户首先看到了声音的标题，表示用户对这个结果认为相关了，才播放声音。所以，用户先有了对item标题感兴趣，才播放声音，这是有先后关系的。这样就得到了声音和词的向量表示。

优选地，步骤105具体包括：子步骤B1；

子步骤B1、将所述检索节点数据输入到word2vec模型进行训练，输出检索词分词结果特征向量、用户信息特征向量，以及各所述检索结果声音数据的声音唯一标识特征向量、主播信息特征向量、标签特征向量、声音文本数据特征向量。

其中，word2vec模型，为一群用来产生词向量的相关模型。这些模型为浅层双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。

训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系，该向量为神经网络之隐藏层。并且Word2vec依赖skip-grams或连续词袋(CBOW)来建立神经词嵌入embedding。

步骤106、获取所述检索词特征向量、所述用户信息特征向量与所述检索结果声音数据的相关特征匹配度；

本发明实施例中，分别计算获取的检索词特征向量、用户信息特征向量与检索结果声音数据之间的相关特征匹配度，通常通过上述特征之间的余弦相似度来确定相关特征匹配度。

优选地，步骤106具体包括：子步骤C1-C4；

子步骤C1、通过对所述检索词特征向量预处理，得到预处理检索词特征向量；

具体地，在对检索词进行分词，并去掉停用词，则得到预处理检索词，再根据上述通过 word2vec模型得到的预处理检索词后检索词特征向量。

子步骤C2、确定所述预处理检索词特征向量的加权平均值为检索词表达式；

具体地，将得到的所有预处理检索词特征向量计算加权平均值，得到检索词表达式。

可以理解地，加权平均值计算时各项检索词的权重可以根据检索词出现的频率，或针对单个用户的检索偏好进行设置不同的权重值，对此本发明实施例不加以具体限制。

子步骤C3、通过所述用户信息特征向量获取用户信息表达式；

具体地，在用户信息中包含用户唯一标识，即用户ID，用户对于检索结果声音数据点击操作的数据，用户点击检索结果声音数据的唯一标识，检索结果声音数据的主播信息等，生成的用户信息特征向量，最后通过计算上述各值得加权平均值，得到用户信息表达式。

优选地，子步骤C3可以包括：

子步骤C31、计算所述检索节点数据中各所述检索结果声音数据的各所述声音唯一标识特征向量的平均值，得到第一检索节点表达式；

具体地，在根据步骤104得到的检索节点数据中，将检索节点数据转换为特征向量的后，将声音数据的唯一标识特征向量进行提取，并计算多个向量的平均值，最后得到第一检索节点表达式Vec_{session声音ID}。

子步骤C32、计算所述检索节点数据中各所述检索结果声音数据的各所述主播信息特征向量的平均值，得到第二检索节点表达式；

同样地，在根据步骤104得到的检索节点数据中，将检索节点数据转换为特征向量的主播信息特征向量提取，并计算其平均值，得到第二检索节点表达式,表示为Vec_{session主播ID}。

子步骤C33、根据所述第一检索节点表达式与第一预设权重的乘积，得到第一权重检索节点表达式；

具体地，在设定了第一预设权重后，将第一预设权重与第一检索表达式相乘，得到第一权重检索节点表达式。例如，0.3*Vec_{session声音ID}，其中0.3为第一预设权重。

例如，第一权重表达式为0.3*Vec_{session声音ID}+0.2*Vec_{session主播ID}

子步骤C34、根据所述第二检索节点表达式与第二预设权重的乘积，得到第二权重检索节点表达式；

具体地，在设定了第二预设权重后，将第二预设权重与第二检索表达式相乘，得到第二权重检索节点表达式。例如，0.2*Vec_{session主播ID}，其中0.2为第二预设权重。

子步骤C35、根据所述检索词表达式与第三预设权重的乘积，得到权重检索词表达式；所述第一预设权重、所述第二预设权重与所述第三预设权重的和为1；

具体地，检索词表达式与第三预设权重的乘积表达为0.5*Vec_query，其中0.5为第三预设权重。

可以理解地，为了建立检索词、声音信息和声音主播信息与用户信息的相关性，根据其在检索结果中的重要性分别设立权重，且分别设立的权重之和为1。

其中，除了建立检索词、声音信息和声音主播信息与用户信息的相关性，还可以建立其他特征与用户信息的相关性，比如主播排行信息，声音播放频率等等数据，在针对不同的应用场景不同而选择不同，本发明实施例对此不加以具体限制。

并且，预设权重的设置是相关技术人员人为确定不同特征向量与用户相关性的程度不同而值有大小，根据具体应用场景而设置不同的值，本发明实施例对此不加以具体限制。

子步骤C36、将所述第一权重检索节点表达式、所述第一权重检索节点表达式以及所述权重检索词表达式求和，得到用户信息表达式。

具体地，将第一权重检索节点表达式、第一权重检索节点表达式以及权重检索词表达式求和相加，得到的用户信息表达式，通过该表达式可以确定用户信息与检索词、声音信息和声音主播信息之间的关系，根据上述步骤描述，可以得到的用户信息表达式Vec_user为：

Vec_user＝0.5*Vec_query+0.3*Vec_{session声音ID}+0.2*Vec_{session主播ID}

子步骤C4、获取所述检索词表达式、所述用户信息表达式、所述声音唯一标识特征向量、主播信息特征向量、标签特征向量以及声音文本数据特征向量之间的相关特征匹配度。

具体地，将session转换得到的特征向量，以及检索词表达式、用户信息表达式以及声音唯一标识特征向量、主播信息特征向量、标签特征向量以及声音文本数据特征向量之间的相关特征匹配度，通常是计算它们的余弦相似度。

可以理解地，余弦相似度是计算匹配度的一种方式，还可以使用向量空间相似度或其他方式计算特征的匹配度，对此本发明实施例不做具体限制。

优选地，子步骤C4可以包括：

子步骤C41、分别计算所述检索节点数据中预设数量的所述检索结果声音数据的各所述唯一标识特征向量，与所述检索词表达式的第一余弦相似度；

具体地，选取用户最近一个session中最近几个检索结果声音数据的各声音唯一标识特征向量，分别与检索词表达式的第一余弦相似度。

其中预设数量可以根据检索结果声音数据的数量多少来决定选取最近的几个，在本实施例中选取用户最近一个session中最近三个声音的ID embedding与Vec_query的余弦相似度。

可以理解地，预设数量可以随时根据检索结果声音数据的数量多少由相关技术人员进行调整，本发明实施例对此不加以限制。

子步骤C42、将所述声音文本数据特征向量的向量平均值，确定为声音标题表达式；

具体地，获取检索结果声音数据的声音文本数据，并计算其特征向量的向量平均值，确定为声音标题表达式。即对待排序的检索结果声音数据的声音文本数据进行分词，用所有词向量的均值表示声音标题。

子步骤C43、分别计算检索词表达式，与所述声音标题表达式、所述主播信息特征向量、所述唯一标识特征向量的第二余弦相似度；

具体地，分别计算Vec_query与待排序的声音ID、主播ID、声音标题的余弦相似度。

子步骤C44、计算所述检索节点数据中预设数量的所述检索结果声音数据的各所述唯一标识特征向量，与所述检索节点数据中其他所述检索结果声音数据的各所述唯一标识特征向量的第三余弦相似度。

具体地，若预设数量为三，计算用户最近一个session中最近三个声音的IDembedding 分别与待排序的声音ID embedding的余弦相似度。

步骤107、将所述检索词特征向量、所述用户信息特征向量、所述检索结果声音数据以及所述相关特征匹配度输入梯度提升决策树模型，输出所述检索结果声音数据的排序结果。

优选地，步骤107具体包括：子步骤D1；

子步骤D1、将所述检索词特征向量、所述用户信息特征向量、所述检索结果声音数据、第一余弦相似度、第二余弦相似度以及第三余弦相似度输入梯度提升决策树模型，输出所述检索结果声音数据的排序结果。

具体地，将query向量，即搜索词的特征向量、用户向量，即用户ID的特征向量、主播向量，即主播ID的特征向量、声音向量，即声音标题的特征向量、用户的基本信息，即用户ID信息及声音文本内容、声音统计类信息，即声音的播放时长、播放次数等信息，以及上述得到的第一、第二和第三余弦相似度输入到GBDT模型(梯度提升决策树模型)，基于正交进行模型优化训练，输出检索结果声音数据排序结果。

如图3所示，本发明实施例的具体实施方式为：

1)数据抽取。抽取用户的基本信息、行为信息、用户的query、声音的统计类信息、声音的一二级标签、声音的关键词、用户主播交叉特征、主播的统计类信息；

2)抽取session。根据用户的query和点击数据，抽取session，其中session的定义如下：

(i)用户输入query后同一次请求下的点击行为属于同一个session；

(ii)用户下一次请求与上一次的请求结束的时间如果不超过20秒，则认为两次请求的点击行为是同一个session。

3)中文分词。将2)中得到的session中的每个声音的标题和query进行分词。

4)表示模型训练。

(i)构造样本。以session1为例，其构造的样本如下所示：

Query1分词结果 I1名字分词结果 I1ID I1主播ID I1一级标签 I1二级标签 I1关键词 Query1分词结果 I3名字分词结果 I3ID I3主播ID I3一级标签 I3二级标签 I3关键词 Query1分词结果 I8名字分词结果 I8ID I8主播ID I8一级标签 I8二级标签 I8关键词。

(ii)将(i)中得到的样本输入到word2vec模型进行训练，获得每个声音ID、主播ID、词、标签的embedding。值得指出的是声音的标题分词结果是放在声音id的前面，其实这里有一种思想在里面，我们可以认为在用户的播放行为中，用户首先看到了声音的标题，表示用户对这个结果认为相关了，才播放声音。所以，用户先有了对item标题感兴趣，才播放声音，这是有先后关系的。这样就得到了声音和词的向量表示。

5)获取query表示。根据4)中得到的词向量，生成query的表示。具体方法如下：将用户当前的query进行分词，然后将所有词(去掉停用词)的加权平均表示该query。

6)获取用户的id表示

(i)通过声音ID获取用户最近一个session表示。根据4)中得到的声音ID向量，生成session的表示。具体方法如下：将该session中每个声音ID的向量平均值来表示当前session。

(ii)通过主播ID获取用户最近一个session表示。根据4)中得到的主播ID向量，生成session的表示。具体方法如下：将该session中每个主播ID的向量平均值来表示当前session。

(iii)获取用户ID表示。根据用户最近一个session表示和5)中得到的用户的query 表示生成用户的ID表示，其计算方法如下：

Vec_user＝0.5*Vec_query+0.3*Vec_{session声音ID}+0.2*Vec_{session主播ID}

7)基于向量表示获取用户、query与声音的匹配特征。

(i)计算用户最近一个session中最近三个声音的ID embedding与Vec_query的余弦相似度；

(ii)对待排序的声音文本进行分词，用所有词向量的均值表示声音标题。然后分别计算 Vec_query与待排序的声音ID、主播ID、声音标题的余弦相似度；

(iii)计算用户最近一个session中最近三个声音的ID embedding分别与待排序的声音 ID embedding的余弦相似度。

8)将query向量(搜索词的特征向量)、用户向量(用户ID的特征向量)、主播向量(主播ID的特征向量)、声音向量(声音标题的特征向量)、用户的基本信息(用户ID信息)及声音文本内容、声音统计类信息、用户主播交叉特征(余弦相似度)、用户搜索点击 session与query的交叉特征(上述所有获取的特征)输入到GBDT模型(梯度提升决策树模型)，基于正交进行模型优化训练，输出排序结果。

在本实施例中，接收检索用户发起的声音数据检索请求；针对检索请求，获取检索用户的检索词；获取针对检索词的检索结果声音数据；根据检索用户对检索结果声音数据的操作信息，生成检索节点数据；操作信息包括检索用户的用户信息以及检索声音数据的特征信息；将检索节点数据转换为检索词特征向量、用户信息特征向量以及检索结果声音数据特征向量；获取检索词特征向量、用户信息特征向量与检索结果声音数据的相关特征匹配度；将检索词特征向量、用户信息特征向量、检索结果声音数据以及的相关特征匹配度输入梯度提升决策树模型，输出所述检索结果声音数据的排序结果，一方面，解决了单一模型训练，存在对应缺陷无法规避的问题，另一方面，无需依赖综合利用用户的query、用户行为信息以及声音文本内容、声音统计类信息、主播统计类信息结合GBDT模型构建多模态学习模型,实现多种模态数据特征的充分融合,并据此对声音的搜索进行排序,大大提升了排序结果的精确率以及用户的点击率。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

实施例二

图4为本发明实施例二提供的一种排序装置的结构框图，具体可以包括如下模块：

声音数据检索请求接收模块401，用于接收检索用户发起的声音数据检索请求；

检索词获取模块402，用于针对所述检索请求，获取所述检索用户的检索词；

检索结果声音数据获取模块403，用于获取针对所述检索词的检索结果声音数据；

检索节点数据生成模块404，用于根据所述检索用户对所述检索结果声音数据的操作信息，生成检索节点数据；所述操作信息包括所述检索用户的用户信息以及所点击的所述检索结果声音数据的特征信息；

特征向量转换模块405，用于将所述检索节点数据转换为检索词特征向量、用户信息特征向量以及检索结果声音数据特征向量；

相关特征匹配度获取模块406，用于获取所述检索词特征向量、所述用户信息特征向量与所述检索结果声音数据的相关特征匹配度；

排序结果输出模块407，用于将所述检索词特征向量、所述用户信息特征向量、所述检索结果声音数据以及所述相关特征匹配度输入梯度提升决策树模型，输出所述检索结果声音数据的排序结果。

在本发明的一个实施例中，所述检索节点数据生成模块404还用于：

获取在预设操作时间内所述检索用户对所述检索结果声音数据的操作数据；

获取所述检索结果声音数据的标题、声音唯一标识、主播信息、标签、声音关键词以及声音文本数据；

分别对所述检索词和所述检索结果声音数据的标题进行分词操作，得到检索分词结果和声音标题分词结果；

将所述检索用户的用户信息、所述检索词分词结果、所述声音标题分词结果、所述声音唯一标识、所述主播信息、所述标签以及所述声音关键词合并生成检索节点数据。

在本发明的一个实施例中，所述特征向量转换模块405还用于：

将所述检索节点数据输入到word2vec模型进行训练，输出检索词分词结果特征向量、用户信息特征向量，以及各所述检索结果声音数据的声音唯一标识特征向量、主播信息特征向量、标签特征向量、声音文本数据特征向量。

在本发明的一个实施例中，所述相关特征匹配度获取模块406还用于：

通过对所述检索词特征向量预处理，得到预处理检索词特征向量；

确定所述预处理检索词特征向量的加权平均值为检索词表达式；

通过所述用户信息特征向量获取用户信息表达式；

获取所述检索词表达式、所述用户信息表达式、所述声音唯一标识特征向量、主播信息特征向量、标签特征向量以及声音文本数据特征向量之间的相关特征匹配度。

计算所述检索节点数据中各所述检索结果声音数据的各所述声音唯一标识特征向量的平均值，得到第一检索节点表达式；

计算所述检索节点数据中各所述检索结果声音数据的各所述主播信息特征向量的平均值，得到第二检索节点表达式；

根据所述第一检索节点表达式与第一预设权重的乘积，得到第一权重检索节点表达式；

根据所述第二检索节点表达式与第二预设权重的乘积，得到第二权重检索节点表达式；

根据所述检索词表达式与第三预设权重的乘积，得到权重检索词表达式；所述第一预设权重、所述第二预设权重与所述第三预设权重的和为1；

将所述第一权重检索节点表达式、所述第一权重检索节点表达式以及所述权重检索词表达式求和，得到用户信息表达式。

分别计算所述检索节点数据中预设数量的所述检索结果声音数据的各所述唯一标识特征向量，与所述检索词表达式的第一余弦相似度；

将所述声音文本数据特征向量的向量平均值，确定为声音标题表达式；

分别计算检索词表达式，与所述声音标题表达式、所述主播信息特征向量、所述唯一标识特征向量的第二余弦相似度；

计算所述检索节点数据中预设数量的所述检索结果声音数据的各所述唯一标识特征向量，与所述检索节点数据中其他所述检索结果声音数据的各所述唯一标识特征向量的第三余弦相似度。

在本发明的一个实施例中，所述排序结果输出模块407还用于：

将所述检索词特征向量、所述用户信息特征向量、所述检索结果声音数据、第一余弦相似度、第二余弦相似度以及第三余弦相似度输入梯度提升决策树模型，输出所述检索结果声音数据的排序结果。

本发明实施例所提供的排序装置可执行本发明任意实施例所提供的排序方法，具备执行方法相应的功能模块和有益效果。

实施例三

图5为本发明实施例三提供的一种计算机设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图5显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等) 通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的排序方法。

实施例四

本发明实施例四还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述排序方法的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种排序方法，其特征在于，包括：

接收检索用户发起的声音数据检索请求；

针对所述检索请求，获取所述检索用户的检索词；

获取针对所述检索词的检索结果声音数据；

2.根据权利要求1所述的方法，其特征在于，所述根据所述检索用户对所述检索结果声音数据的操作信息，生成检索节点数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述检索节点数据转换为检索词特征向量、用户信息特征向量以及检索结果声音数据特征向量，包括：

4.根据权利要求3所述的方法，其特征在于，所述获取所述检索词特征向量、所述用户信息特征向量与所述检索结果声音数据的相关特征匹配度，包括：

通过所述用户信息特征向量获取用户信息表达式；

5.根据权利要求4所述的方法，其特征在于，所述通过所述用户信息特征向量获取用户信息表达式，包括：

6.根据权利要求4所述的方法，其特征在于，所述获取所述检索词表达式、所述用户信息表达式、所述声音唯一标识特征向量、主播信息特征向量、标签特征向量以及声音文本数据特征向量之间的相关特征匹配度，包括：

7.根据权利要求6所述的方法，其特征在于，所述将所述检索词特征向量、所述用户信息特征向量、所述检索结果声音数据以及所述相关特征匹配度输入梯度提升决策树模型，输出所述检索结果声音数据的排序结果，包括：

8.一种排序装置，其特征在于，包括：

9.一种计算机设备，其特征在于，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一项所述的排序方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的排序方法。