CN112364184A

CN112364184A - 多媒体数据的排序方法、装置、服务器及存储介质

Info

Publication number: CN112364184A
Application number: CN202011264599.1A
Authority: CN
Inventors: 张志伟; 李岩
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2021-02-12
Anticipated expiration: 2040-11-12
Also published as: CN112364184B

Abstract

本公开关于一种多媒体数据的排序方法、装置、服务器及存储介质，属于计算机技术领域。本公开提供的方案，通过在接收到目标账号的搜索请求时，确定在目标账号要搜索的搜索关键词下，多个多媒体数据发生互动操作的概率，进而结合多个多媒体数据的相关性特征和质量特征，对这多个多媒体数据进行排序，由于相关性特征能够表示多媒体数据和搜索关键词的匹配程度，质量特征能够表示多媒体数据的内容质量，从而使得排序靠前的多媒体数据是与搜索关键词相关且质量较高的数据，提高了多媒体数据的排序准确性。

Description

多媒体数据的排序方法、装置、服务器及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种多媒体数据的排序方法、装置、服务器及存储介质。

背景技术

近年来，由于深度学习超强的拟合能力以及端到端的全局优化能力，使得深度学习在多媒体内容理解这个场景中得到了越来越广泛的应用。在实际应用时，用户输入自己要搜索的搜索关键词，服务器通过深度学习模型，基于用户输入的搜索关键词，为用户推荐与该搜索关键词匹配且热度较高的多媒体数据，以便用户对这些多媒体数据进行查看。

目前在基于用户输入的搜索关键词进行数据推荐时，主要是采用基于嵌入向量(Embedding)的XTR预估方法，预估各个多媒体数据发生互动操作的概率，其中，XTR包括点击率(Click Through Rate，CTR)、点赞率(Like Through Rate，LTR)、关注率等。以基于Embedding的CTR预估方法为例，通过将搜索关键词和多媒体数据进行Embedding转化，得到搜索关键词和与基于该搜索关键词确定出的多媒体数据对应的特征，进而基于该特征，预估在该搜索关键词下，各个多媒体数据的点击率，基于预估出的点击率对多媒体数据进行排序。

在上述实现过程中，在某个搜索关键词下预估得到的点击率较高的多媒体数据，可能是与该搜索关键词相关性较低的多媒体数据，还可能是一些与搜索关键词相关的低俗内容对应的多媒体数据等，从而导致多媒体数据的排序准确性较低。

发明内容

本公开提供一种多媒体数据的排序方法、装置、服务器及存储介质，以提高多媒体数据的排序准确性。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种多媒体数据的排序方法，该方法包括：

响应于目标账号的搜索请求，获取该搜索请求所携带的搜索关键词；

基于该搜索关键词和多个多媒体数据，确定多个多媒体数据对应的融合特征和该多个多媒体数据对应的概率，一个融合特征用于表示该搜索关键词和一个多媒体数据的特征，一个概率用于表示该目标账号对一个多媒体数据发生互动操作的概率；

基于该多个多媒体数据对应的融合特征、对应概率、该多个多媒体数据的相关性特征和质量特征，对该多个多媒体数据进行排序，该相关性特征用于表示该多个多媒体数据与该搜索关键词的匹配程度，该质量特征用于表示该多个多媒体数据的内容质量。

通过在接收到目标账号的搜索请求时，确定在目标账号要搜索的搜索关键词下，多个多媒体数据发生互动操作的概率，进而结合多个多媒体数据的相关性特征和质量特征，对这多个多媒体数据进行排序，由于相关性特征能够表示多媒体数据和搜索关键词的匹配程度，质量特征能够表示多媒体数据的内容质量，从而使得排序靠前的多媒体数据是与搜索关键词相关且质量较高的数据，提高了多媒体数据的排序准确性。

在一些实施例中，该基于该搜索关键词和多个多媒体数据，确定多个多媒体数据对应的融合特征和该多个多媒体数据对应的概率包括：

提取该搜索关键词的特征和该多个多媒体数据的特征；

对该搜索关键词的特征和该多个多媒体数据的特征进行融合，得到该多个多媒体数据对应的融合特征；

基于该多个多媒体数据对应的融合特征，确定该目标账号对该多个多媒体数据发生互动操作的概率，作为该多个多媒体数据对应的概率。

通过分别提取搜索关键词和多个多媒体数据的特征，进而对搜索关键词的特征和多个多媒体数据的特征进行融合，基于融合得到的融合特征，来进行目标账号对多个多媒体数据发生互动操作的概率的预测，也即是，实现对多媒体数据的热度的预测，以便后续进行排序时考虑到多媒体数据的热度，提高多媒体数据的排序准确性。

在一些实施例中，该基于该多个多媒体数据对应的融合特征、对应概率、该多个多媒体数据的相关性特征和质量特征，对该多个多媒体数据进行排序包括：

基于该多个多媒体数据对应的融合特征、对应概率、该多个多媒体数据的相关性特征和质量特征，确定该多个多媒体数据的排序信息，该排序信息用于指示该多个多媒体数据的推荐分数；

根据该排序信息，对该多个多媒体数据进行排序。

通过确定多个多媒体数据的排序信息，以便基于排序信息来对多媒体数据进行排序，由于确定排序信息时考虑到了目标账号对多媒体数据发生互动操作的概率、以及多个多媒体数据与搜索关键词的相关性特征以及多个多媒体数据的质量特征，使得排序信息对应的推荐分数较高的多媒体数据，是热度较高、并与搜索关键词相关且质量较高的数据，提高多媒体数据的排序准确性。

在一些实施例中，该基于该多个多媒体数据对应的融合特征、对应概率、该多个多媒体数据的相关性特征和质量特征，确定该多个多媒体数据的排序信息包括：

对该多个多媒体数据对应的融合特征进行降维处理，其中，降维处理后的多个融合特征的维度，与该多个多媒体数据的相关性特征的维度和质量特征的维度满足第一目标条件；

基于该降维处理后的多个融合特征、对应概率、该多个多媒体数据的相关性特征和质量特征，确定该多个多媒体数据的排序信息。

由于融合特征的维度一般比较高，通过对融合特征进行降维处理，使得降维处理后的融合特征的维度，与相关性特征的维度和质量特征的维度满足第一目标条件，以便后续基于融合特征、相关性特征和质量特征，实现排序信息的确定。

在一些实施例中，该方法还包括：

将该搜索关键词和多个多媒体数据输入多媒体数据排序模型的行为预测模块，通过该行为预测模块，基于该搜索关键词和多个多媒体数据进行处理，得到多个多媒体数据对应的融合特征和该多个多媒体数据对应的概率；

将该多个多媒体数据对应的融合特征、对应概率、该多个多媒体数据的相关性特征和质量特征输入该多媒体数据排序模型的排序学习模块，通过该排序学习模块，基于该多个多媒体数据对应的融合特征、对应概率、该多个多媒体数据的相关性特征和质量特征，对该多个多媒体数据进行排序。

通过多媒体数据排序模型的行为预测模块和排序学习模块，分别进行目标账号对该多个多媒体数据发生互动操作的概率的确定，以及对多媒体数据进行排序，无需人工处理，提高多媒体数据的排序效率。

在一些实施例中，该行为预测模块的训练过程包括：

获取多个第一样本多媒体数据以及该多个第一样本多媒体数据的历史操作数据；

将该多个第一样本多媒体数据输入初始模型的初始行为预测模块，通过该初始行为预测模块，确定多个样本概率，一个样本概率用于表示一个账号对一个第一样本多媒体发生互动操作的样本概率；

基于该多个样本概率以及该多个第一样本多媒体数据的历史操作数据，对该初始行为预测模块的参数进行调整，直至调整后的初始行为预测模块满足第二目标条件，将满足第二目标条件的初始行为预测模块作为该多媒体数据排序模型的行为预测模块。

通过获取第一样本多媒体数据和历史操作数据，进而基于获取到的数据对初始模型中的初始行为预测模块进行训练，以得到多媒体数据排序模型的行为预测模块，提高行为预测模块的预测准确性，进而提高多媒体数据的排序准确性。

在一些实施例中，该将该多个第一样本多媒体数据输入初始模型的初始行为预测模块，通过该初始行为预测模块，确定多个样本概率之前，该方法还包括：

对该多个第一样本多媒体数据以及该多个第一样本多媒体数据的历史操作数据进行数据清洗。

通过对获取到的第一样本多媒体数据以及历史操作数据进行数据清洗，以剔除一些垃圾用户数据以及一些异常离群点的用户数据，避免这些数据对模型初始行为预测模块的训练造成影响，提高初始行为预测模块的训练效果，进而提高训练得到的行为预测模块的预测准确性。

在一些实施例中，该排序学习模块的训练过程包括：

获取多个第二样本多媒体数据以及该多个第二样本多媒体数据的排序标注数据；

将该多个第二样本多媒体数据输入初始模型的初始排序学习模块，通过该初始排序学习模块，确定多个样本排序信息，一个样本排序信息用于表示一个第二样本多媒体数据的样本推荐分数；

基于该多个样本排序信息以及该多个第二样本多媒体数据的排序标注数据，对该初始排序学习模块的参数进行调整，直至调整后的初始排序学习模块满足第三目标条件，将满足第三目标条件的初始排序学习模块作为该多媒体数据排序模型的排序学习模块。

通过获取第二样本多媒体数据和排序标注数据，进而基于获取到的数据对初始模型中的初始排序学习模块进行训练，以得到多媒体数据排序模型的排序学习模块，提高排序学习模块的排序准确性，进而提高多媒体数据的排序准确性。

在一些实施例中，该行为预测模块的训练过程与该排序学习模块的训练过程不同步。

通过对行为预测模块和排序学习模块进行不同步的训练，以提高训练过程的灵活性。

在一些实施例中，该基于该多个多媒体数据对应的融合特征、对应概率、该多个多媒体数据的相关性特征和质量特征，对该多个多媒体数据进行排序之后，该方法还包括：

基于该多个多媒体数据的排序结果，确定多个目标多媒体数据；

将该多个目标多媒体数据推荐给该目标账号。

通过本公开提供的方案确定出的排序结果，为目标账号进行多媒体数据的推荐，以保证推荐给目标账号的目标多媒体数据，是与目标账号输入的搜索关键词相关且内容质量较高，而且热度较高的多媒体数据，提高多媒体数据的推荐效果，进而提高用户体验。

根据本公开实施例的第二方面，提供一种多媒体数据的排序装置，该装置包括：

获取单元，被配置为执行响应于目标账号的搜索请求，获取该搜索请求所携带的搜索关键词；

确定单元，被配置为执行基于该搜索关键词和多个多媒体数据，确定多个多媒体数据对应的融合特征和该多个多媒体数据对应的概率，一个融合特征用于表示该搜索关键词和一个多媒体数据的特征，一个概率用于表示该目标账号对一个多媒体数据发生互动操作的概率；

排序单元，被配置为执行基于该多个多媒体数据对应的融合特征、对应概率、该多个多媒体数据的相关性特征和质量特征，对该多个多媒体数据进行排序，该相关性特征用于表示该多个多媒体数据与该搜索关键词的匹配程度，该质量特征用于表示该多个多媒体数据的内容质量。

在一些实施例中，该确定单元，被配置为执行提取该搜索关键词的特征和该多个多媒体数据的特征，对该搜索关键词的特征和该多个多媒体数据的特征进行融合，得到该多个多媒体数据对应的融合特征，基于该多个多媒体数据对应的融合特征，确定该目标账号对该多个多媒体数据发生互动操作的概率，作为该多个多媒体数据对应的概率。

在一些实施例中，该排序单元包括确定子单元和排序子单元；

该确定子单元，被配置为执行基于该多个多媒体数据对应的融合特征、对应概率、该多个多媒体数据的相关性特征和质量特征，确定该多个多媒体数据的排序信息，该排序信息用于指示该多个多媒体数据的推荐分数；

该排序子单元，被配置为执行根据该排序信息，对该多个多媒体数据进行排序。

在一些实施例中，该确定子单元，被配置为执行对该多个多媒体数据对应的融合特征进行降维处理，其中，降维处理后的多个融合特征的维度，与该多个多媒体数据的相关性特征的维度和质量特征的维度满足第一目标条件，基于该降维处理后的多个融合特征、对应概率、该多个多媒体数据的相关性特征和质量特征，确定该多个多媒体数据的排序信息。

在一些实施例中，该装置还包括：

输入单元，被配置为执行将该搜索关键词和多个多媒体数据输入多媒体数据排序模型的行为预测模块，通过该行为预测模块，基于该搜索关键词和多个多媒体数据进行处理，得到多个多媒体数据对应的融合特征和该多个多媒体数据对应的概率；

该输入单元，还被配置为执行将该多个多媒体数据对应的融合特征、对应概率、该多个多媒体数据的相关性特征和质量特征输入该多媒体数据排序模型的排序学习模块，通过该排序学习模块，基于该多个多媒体数据对应的融合特征、对应概率、该多个多媒体数据的相关性特征和质量特征，对该多个多媒体数据进行排序。

在一些实施例中，该装置包括：

训练单元，被配置为执行获取多个第一样本多媒体数据以及该多个第一样本多媒体数据的历史操作数据，将该多个第一样本多媒体数据输入初始模型的初始行为预测模块，通过该初始行为预测模块，确定多个样本概率，一个样本概率用于表示一个账号对一个第一样本多媒体发生互动操作的样本概率，基于该多个样本概率以及该多个第一样本多媒体数据的历史操作数据，对该初始行为预测模块的参数进行调整，直至调整后的初始行为预测模块满足第二目标条件，将满足第二目标条件的初始行为预测模块作为该多媒体数据排序模型的行为预测模块。

在一些实施例中，该训练单元，还被配置为执行对该多个第一样本多媒体数据以及该多个第一样本多媒体数据的历史操作数据进行数据清洗。

在一些实施例中，该训练单元，还被配置为执行获取多个第二样本多媒体数据以及该多个第二样本多媒体数据的排序标注数据，将该多个第二样本多媒体数据输入初始模型的初始排序学习模块，通过该初始排序学习模块，确定多个样本排序信息，一个样本排序信息用于表示一个第二样本多媒体数据的样本推荐分数，基于该多个样本排序信息以及该多个第二样本多媒体数据的排序标注数据，对该初始排序学习模块的参数进行调整，直至调整后的初始排序学习模块满足第三目标条件，将满足第三目标条件的初始排序学习模块作为该多媒体数据排序模型的排序学习模块。

在一些实施例中，该确定单元，还被配置为执行基于该多个多媒体数据的排序结果，确定多个目标多媒体数据；

该装置还包括：

推荐单元，被配置为执行将该多个目标多媒体数据推荐给该账号。

根据本公开实施例的第三方面，提供一种服务器，该服务器包括：

一个或多个处理器；

用于存储该处理器可执行指令的存储器；

其中，该处理器被配置为执行该指令，以实现上述多媒体数据的排序方法。

根据本公开实施例的第四方面，提供一种存储介质，当该存储介质中的指令由服务器的处理器执行时，使得服务器能够执行上述多媒体数据的排序方法。

根据本公开实施例的第五方面，提供一种应用程序产品，该应用程序产品存储有一条或多条指令，该一条或多条指令可以由服务器的处理器执行，以完成上述多媒体数据的排序方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种多媒体数据的排序方法的实施环境示意图；

图2是根据一示例性实施例示出的一种多媒体数据的排序方法的流程图；

图3是根据一示例性实施例示出的一种多媒体数据的排序方法的流程图；

图4是根据一示例性实施例示出的一种行为预测模块的处理过程示意图；

图5是根据一示例性实施例示出的一种排序学习模块的处理过程示意图；

图6是根据一示例性实施例示出的一种多媒体数据排序模型的处理过程示意图；

图7是根据一示例性实施例示出的一种多媒体数据的排序装置的框图；

图8是根据一示例性实施例示出的一种服务器800的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所涉及的用户信息可以为经用户授权或者经过各方充分授权的信息。

图1是根据一示例性实施例示出的一种多媒体数据的排序方法的实施环境示意图，参见图1，该实施环境包括：终端101和服务器102。

终端101为智能手机、智能手表、手提电脑、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器和膝上型便携计算机等设备中的至少一种。用户能够通过终端101对多种多媒体数据进行查看，如视频、音乐、新闻等。终端101通过有线网络或无线网络与服务器102进行通信，本公开实施例对此不加以限定。目标账号通过终端101输入自己要搜索的搜索关键词，终端101响应于目标账号的输入操作，生成搜索请求，进而将该搜索请求发送给服务器102，该搜索请求携带该搜索关键词。终端101接收服务器102返回的按序排列的多媒体数据的相关信息，包括多媒体数据的名称、简介信息、作者等，在一些实施例中，该相关信息包括其他内容，本公开实施例对此不加以限定。终端101基于接收到的相关信息，对多媒体数据的相关信息进行展示，以便目标账号进行浏览，进而从中选择自己要查看的多媒体数据，终端101响应于目标账号的选择操作，向服务器102发送数据获取请求，该数据获取请求携带被选中的多媒体数据的数据标识，并接收服务器102返回的多媒体数据。

终端101泛指多个终端中的一个，本实施例仅以终端101来举例说明。本领域技术人员可以知晓，上述终端的数量更多或更少。比如上述终端可以仅为几个，或者上述终端为几十个或几百个，或者更多数量，本公开实施例对终端的数量和设备类型均不加以限定。

服务器102可以为一台服务器、多台服务器、云服务器、云计算平台和虚拟化中心中的至少一种。服务器102关联有一个多媒体数据库，用于存储多个多媒体数据以及这多个多媒体数据的相关信息，其中，该相关信息包括多媒体数据的名称、简介信息、作者等，在一些实施例中，该相关信息包括其他内容，本公开实施例对此不加以限定。服务器102通过有线网络或无线网络与终端101进行通信，本公开实施例对此不加以限定。服务器102接收终端101发送的搜索请求，进而基于该搜索请求所携带的搜索关键词，对多媒体数据库中的多个多媒体数据进行排序，进而基于排序结果确定待推荐的多媒体数据，进而将待推荐的多媒体数据的相关信息发送给终端101，由终端101对相关信息进行展示。服务器102接收终端101的数据获取请求，进而根据数据获取请求所携带的数据标识，从多媒体数据库中获取对应的多媒体数据，进而将获取到的多媒体数据发送给终端101。在一些实施例中，上述服务器的数量更多或更少，本公开实施例对此不加以限定。当然，在另一些实施例中，服务器102还包括其他功能服务器，以便提供更全面且多样化的服务。

图2是根据一示例性实施例示出的一种多媒体数据的排序方法的流程图，参见图2，具体步骤包括：

在步骤S201中，服务器响应于目标账号的搜索请求，获取该搜索请求所携带的搜索关键词。

在步骤S202中，服务器基于该搜索关键词和多个多媒体数据，确定多个多媒体数据对应的融合特征和该多个多媒体数据对应的概率，一个融合特征用于表示该搜索关键词和一个多媒体数据的特征，一个概率用于表示该目标账号对一个多媒体数据发生互动操作的概率。

在步骤S203中，服务器基于该多个多媒体数据对应的融合特征、对应概率、该多个多媒体数据的相关性特征和质量特征，对该多个多媒体数据进行排序，该相关性特征用于表示该多个多媒体数据与该搜索关键词的匹配程度，该质量特征用于表示该多个多媒体数据的内容质量。

本公开实施例提供的方案，通过在接收到目标账号的搜索请求时，确定在目标账号要搜索的搜索关键词下，多个多媒体数据发生互动操作的概率，进而结合多个多媒体数据的相关性特征和质量特征，对这多个多媒体数据进行排序，由于相关性特征能够表示多媒体数据和搜索关键词的匹配程度，质量特征能够表示多媒体数据的内容质量，从而使得排序靠前的多媒体数据是与搜索关键词相关且质量较高的数据，提高了多媒体数据的排序准确性。

提取该搜索关键词的特征和该多个多媒体数据的特征；

根据该排序信息，对该多个多媒体数据进行排序。

在一些实施例中，该方法还包括：

在一些实施例中，该行为预测模块的训练过程包括：

在一些实施例中，该排序学习模块的训练过程包括：

将该多个目标多媒体数据推荐给该目标账号。

图3是根据一示例性实施例示出的一种多媒体数据的排序方法的流程图，参见图3，具体步骤包括：

在步骤S301中，服务器响应于目标账号的搜索请求，获取该搜索请求所携带的搜索关键词。

需要说明的是，终端上安装并运行有多种应用程序，如视频观看类应用程序、音乐收听类应用程序、新闻浏览类应用程序等，用户触发这些应用程序中任一应用程序，终端响应于用户的触发操作，显示该任一应用程序对应的首页界面，该首页界面中设置有搜索控件，用户通过该搜索控件输入自己要搜索的搜索关键词，并触发该搜索控件，终端响应于用户的触发操作，获取用户输入的搜索关键词，并基于该搜索关键词生成搜索请求，进而将该搜索请求发送给服务器，该搜索请求携带该搜索关键词。

在一些实施例中，服务器接收终端发送的搜索请求，进而获取该搜索请求所携带的搜索关键词。

在步骤S302中，服务器提取该搜索关键词的特征和多个多媒体数据的特征。

在一些实施例中，服务器通过多媒体数据排序模型的行为预测模块，执行该步骤S302至步骤S304。该多媒体数据排序模型由行为预测模块和排序学习模块组成，其中，该行为预测模块为多种类型的神经网络，本公开实施例对此不加以限定，例如，该行为预测模块为支持因子分解机的神经网络(Factorization Machine Supported Neural Network，FNN)，或者，该行为预测模块为基于乘积的神经网络(Product-based Neural Network，PNN)，或者，该行为预测模块为域分解机模型(Field-aware Factorization Machine，FFM)等等。通过多媒体数据排序模型的行为预测模块，来对目标账号对该多个多媒体数据发生互动操作的概率进行确定，无需人工处理，提高多媒体数据的排序效率。

以该行为预测模块为FNN为例，该FNN包括因子分解机(Factorization Machine，FM)和深度神经网络(Deep Neural Networks，DNN)，其中，该深度神经网络包括多个隐藏层和多个全连接层。在一些实施例中，服务器将搜索关键词和多个多媒体数据输入FM，对搜索关键词和多个多媒体数据进行独热(One-Hot)编码，得到搜索关键词的稀疏特征和多个多媒体数据的稀疏特征，再基于搜索关键词的稀疏特征对应的特征分量，通过对特征分量进行组合，得到该搜索关键词的低维稠密特征，基于多个多媒体数据的稀疏特征对应的特征分量，通过对特征分量进行组合，得到该多个多媒体数据的低维稠密特征，作为该搜索关键词的特征和多个多媒体数据的特征。

在步骤S303中，服务器对该搜索关键词的特征和该多个多媒体数据的特征进行融合，得到该多个多媒体数据对应的融合特征。

在一些实施例中，服务器将该搜索关键词的特征和该多个多媒体数据的特征输入FNN的隐藏层，通过隐藏层对搜索关键词的特征和多个多媒体数据的特征进行融合，得到多个多媒体数据对应的融合特征。

在步骤S304中，服务器基于该多个多媒体数据对应的融合特征，确定该目标账号对该多个多媒体数据发生互动操作的概率，作为该多个多媒体数据对应的概率。

在一些实施例中，服务器将该多个融合特征输入FNN的全连接层，通过全连接层基于这多个多媒体数据对应的融合特征，确定目标账号对多个多媒体数据发生互动操作的概率，得到这多个多媒体数据对应的多个概率。

其中，该互动操作为点击(Click)、点赞(Like)、关注(Follow)等，在一些实施例中，该互动操作包括其他类型，本公开实施例对此不加以限定。相应地，目标账号对多个多媒体数据发生互动操作的概率为点击率(Click Through Rate，CTR)、点赞率(LikeThrough Rate，LTR)、关注率(Follow Through Rate，FTR)等。

上述步骤S302至步骤S304的处理过程参见图4，图4是根据一示例性实施例示出的一种行为预测模块的处理过程示意图，服务器分别对搜索关键词和多媒体数据进行嵌入向量(Embedding)转化，得到该搜索关键词的特征和多个多媒体数据的特征，进而对该搜索关键词的特征和多个多媒体数据的特征进行融合(Concat)，进而通过DNN进行Pxtr预估，得到目标账号对这多个多媒体数据发生互动操作的概率。其中，Pxtr为模型预估出来的XTR，XTR为CTR、LTR、FTR等。

需要说明的是，上述步骤S302至步骤S304中所采用的行为预测模块由初始行为预测模块预先训练得到，训练过程如下：服务器获取多个第一样本多媒体数据以及该多个第一样本多媒体数据的历史操作数据，将该多个第一样本多媒体数据输入初始模型的初始行为预测模块，通过该初始行为预测模块，确定多个样本概率，一个样本概率用于表示一个账号对一个第一样本多媒体发生互动操作的样本概率，基于该多个样本概率以及该多个第一样本多媒体数据的历史操作数据，对该初始行为预测模块的参数进行调整，直至调整后的初始行为预测模块满足第二目标条件，将满足第二目标条件的初始行为预测模块作为该多媒体数据排序模型的行为预测模块。

其中，在通过初始行为预测模块确定样本概率，进而对初始行为预测模块的参数进行调整的过程包括：服务器将该多个第一样本多媒体数据逐个输入初始行为预测模块，对于该多个第一样本多媒体数据中任一第一样本多媒体数据，服务器通过该初始行为预测模块，确定多个账号对该任一第一样本多媒体数据发生互动操作的样本概率，进而结合该任一第一样本多媒体数据对应的历史操作数据，对初始行为预测模块的参数进行调整，再继续对下一个第一样本多媒体数据进行处理。

需要说明的是，该第二目标条件为预测出的样本概率的准确性满足迭代截止条件，或者，该第二目标条件为损失函数值满足迭代截止条件，或者，该第二目标条件为迭代次数达到预设次数，本公开实施例对具体采用哪种条件作为第二目标条件不加以限定。此外，该第一样本多媒体数据的历史操作数据的数据格式为：

<Query，Photo，Click，Like，Follow，...>

其中，Query表示搜索关键词，Photo表示多媒体数据，Click表示点击操作，Like表示点赞操作，Follow表示关注操作。

在一些实施例中，服务器在通过初始行为预测模块对第一样本多媒体数据和历史操作数据进行处理之前，对该多个第一样本多媒体数据以及该多个第一样本多媒体数据的历史操作数据进行数据清洗。

通过对获取到的第一样本多媒体数据以及历史操作数据进行数据清洗，以剔除一些垃圾(Spam)用户数据以及一些异常离群点的用户数据，避免这些数据对模型初始行为预测模块的训练造成影响，提高初始行为预测模块的训练效果，进而提高训练得到的行为预测模块的预测准确性。

在一些实施例中，该行为预测模块的训练过程为在线训练，也即是，该行为预测模块的训练过程属于实时更新过程，但由于数据清洗需要在全局范围内进行，因此行为预测模块的训练会有一定时间的延迟。

需要说明的是，上述步骤S302至步骤S304中的过程，仅为一种用于确定目标账号对多个多媒体数据发生互动操作的概率的示例性方式，在另一些实施例中，采用其他方式来进行目标账号对多个多媒体数据发生互动操作的概率的确定，本公开实施例对此不加以限定。

通过上述步骤S302至步骤S304，分别提取出搜索关键词和多个多媒体数据的特征，进而对搜索关键词的特征和多个多媒体数据的特征进行融合，基于融合得到的融合特征，来进行目标账号对多个多媒体数据发生互动操作的概率的预测，也即是，实现对多媒体数据的热度的预测，以便后续进行排序时考虑到多媒体数据的热度，提高多媒体数据的排序准确性。

在步骤S305中，服务器基于该多个多媒体数据对应的融合特征、对应概率、该多个多媒体数据的相关性特征和质量特征，确定该多个多媒体数据的排序信息，该相关性特征用于表示该多个多媒体数据与该搜索关键词的匹配程度，该质量特征用于表示该多个多媒体数据的内容质量，该排序信息用于表示该多个多媒体数据的推荐分数。

在一些实施例中，服务器通过多媒体数据排序模型的排序学习模块，执行该步骤S305。其中，该排序学习模块为排序学习(Learning To Rank，LTR)模型，在另一些实施例中，该排序学习模块为其他类型的模型，本公开实施例对此不加以限定。通过多媒体数据排序模型的排序学习模块，对多媒体数据进行排序，无需人工处理，提高多媒体数据的排序效率。

以该排序学习模块为LTR模型为例，服务器将该多个多媒体数据对应的融合特征、对应概率、该多个多媒体数据的相关性特征和质量特征输入LTR模型，由LTR模型确定这多个多媒体数据的推荐分数，输出该多个多媒体数据的推荐分数对应的排序信息。

在一些实施例中，在将多个融合特征输入LTR模型前，服务器对该多个多媒体数据对应的融合特征进行降维处理，基于该降维处理后的多个融合特征、对应概率、该多个多媒体数据的相关性特征和质量特征，确定该多个多媒体数据的排序信息，其中，降维处理后的多个融合特征的维度，与该多个多媒体数据的相关性特征的维度和质量特征的维度满足第一目标条件。

其中，在对多个多媒体数据对应的融合特征进行降维处理时，服务器将该多个多媒体数据对应的融合特征输入深度神经网络(Deep Neural Networks，DNN)，通过DNN对多个融合特征进行降维处理。在一些实施例中，还能采用其他方式来对多个多媒体数据对应的融合特征进行降维处理，本公开实施例对此不加以限定。该第一目标条件为降维处理后的多个融合特征的维度，与该多个多媒体数据的相关性特征的维度和质量特征的维度相同，或者该第一目标条件为降维处理后的多个融合特征的维度，与该多个多媒体数据的相关性特征的维度和质量特征的维度差值小于目标阈值，且该第一目标条件为降维处理后的多个融合特征的维度小于该多个多媒体数据的相关性特征的维度和质量特征的维度，该目标阈值为任意整数值，本公开实施例对此不加以限定。

需要说明的是，该多个多媒体数据的相关性特征和质量特征由其他模型确定得到，或者，该多个多媒体数据的相关性特征和质量特征由相关技术人员人工标注得到，本公开实施例对相关性特征和质量特征的来源不加以限定。

上述步骤S305的处理过程参见图5，图5是根据一示例性实施例示出的一种深度学习模块的处理过程示意图，服务器将搜索关键词的特征和多个多媒体数据的特征输入DNN，由DNN对搜索关键词的特征和多个多媒体数据的特征进行降维处理，进而对将降维处理后的搜索关键词的特征和多个多媒体数据的特征、行为预测模块预估出的目标账号对多个多媒体数据发生互动操作的概率、以及多个多媒体数据的相关性特征和质量特征进行融合(Concat)，基于融合后的结果确定多个多媒体数据的排序信息。

需要说明的是，该步骤S305中所采用的排序学习模块由初始排序学习模块预先训练得到，训练过程如下：服务器获取多个第二样本多媒体数据以及该多个第二样本多媒体数据的排序标注数据，将该多个第二样本多媒体数据输入初始模型的初始排序学习模块，通过该初始排序学习模块，多个样本排序信息，一个样本排序信息用于表示一个第二样本多媒体数据的样本推荐分数，基于该多个样本排序信息以及该多个第二样本多媒体数据的排序标注数据，对该初始排序学习模块的参数进行调整，直至调整后的初始排序学习模块满足第三目标条件，将满足第三目标条件的初始排序学习模块作为该多媒体数据排序模型的排序学习模块。

其中，在通过初始排序学习模块确定样本排序信息，进而对初始行为排序学习模块的参数进行调整的过程包括：服务器将该多个第二样本多媒体数据逐个输入初始排序学习模块，对于该多个第二样本多媒体数据中任一第二样本多媒体数据，服务器通过该初始排序学习模块，确定该任一第二样本多媒体数据的样本排序信息，进而结合该任一第二样本多媒体数据对应的排序标注数据，对初始排序学习模块的参数进行调整，再继续对下一个第二样本多媒体数据进行处理。

需要说明的是，该第三目标条件为确定出的样本排序信息的准确性满足迭代截止条件，或者，该第三目标条件为损失函数值满足迭代截止条件，或者，该第三目标条件为迭代次数达到预设次数，本公开实施例对具体采用哪种条件作为第三目标条件不加以限定。此外，该第二样本多媒体数据的排序标注数据的数据格式为：

<Query，Photo，Rank，Label，Feature₁，...，Feature_n>

其中，Query表示搜索关键词，Photo表示多媒体数据，Rank表示排序结果，Label表示多媒体数据的标签，Feature₁表示多媒体数据的第一个特征，Feature_n表示多媒体数据的第n个特征，n为任意正整数值。

需要说明的是，上述步骤S305的过程仅为一种用于确定多个多媒体数据的排序信息的示例性方式，在另一些实施例中，采用其他方式来进行排序信息的确定，本公开实施例对此不加以限定。

需要说明的是，该行为预测模块的训练过程与该排序学习模块的训练过程不同步。通过对行为预测模块和排序学习模块进行不同步的训练，以提高训练过程的灵活性。也即是，行为预测模块和排序学习模块分别独立进行训练，例如服务器先对行为预测模块进行训练，再对排序学习模块进行训练，或者，服务器先对排序学习模块进行训练，再对行为预测模块进行训练，或者，服务器同时对行为预测模块和排序学习模块进行训练，本公开实施例对此不加以限定。

上述步骤S302至步骤S305通过将行为预测模块和排序学习模块融合，得到用于对多媒体数据进行排序的多媒体数据排序模型，该多媒体数据排序模型的处理过程示意图参见图6，图6是根据一示例性实施例示出的一种多媒体数据排序模型的处理过程示意图。服务器通过行为预测模块，分别对搜索关键词和多媒体数据进行Embedding转化，得到该搜索关键词的特征和多个多媒体数据的特征，进而将该搜索关键词的特征和多个多媒体数据的特征输入DNN进行降维处理，并对该搜索关键词的特征和多个多媒体数据的特征进行Concat，进而通过深度神经网络进行Pxtr预估，得到目标账号对这多个多媒体数据发生互动操作的概率。再通过排序学习模块，将降维处理后的搜索关键词的特征和多个多媒体数据的特征、目标账号对这多个多媒体数据发生互动操作的概率、多个多媒体数据的相关性特征和质量特征进行交叉融合(Cross-Concat)，基于融合后的结果确定多个多媒体数据的排序信息，以排序学习模块最终输出的排序信息作为最终的排序依据，来对多个多媒体数据进行排序，具体处理过程参见上述步骤S302至步骤S305，此处不再赘述。

其中，该多媒体数据排序模型的结构类似于联合线性模型和深度模型(Wide&Deep)的结构，行为预测模块为线性模型(Wide)侧，行为预测模块输出的为搜索关键词和多媒体数据的底层特征以及多个多媒体数据发生互动操作的概率特征，这些特征具有明显的物理含义，从而使得多媒体数据排序模型具有良好的记忆能力。而深度学习模块为深度模型(Deep)侧，复用行为预测模块的深度特征，使得多媒体数据排序模型具有泛化能力。

在步骤S306中，服务器根据该排序信息，对该多个多媒体数据进行排序。

在一些实施例中，服务器按照该排序信息所指示的推荐分数由高到低的顺序，对该多个多媒体数据进行排序。

通过上述步骤S305至步骤S306，能够确定出多个多媒体数据的排序信息，以便基于排序信息来对多媒体数据进行排序，由于确定排序信息时考虑到了搜索关键词和多媒体数据本身、目标账号对多媒体数据发生互动操作的概率、以及多个多媒体数据与搜索关键词的相关性特征以及多个多媒体数据的质量特征，使得排序信息对应的推荐分数较高的多媒体数据，是热度较高、并与搜索关键词相关且质量较高的数据，提高多媒体数据的排序准确性。

需要说明的是，在对多个多媒体数据进行排序后，服务器基于该多个多媒体数据的排序结果，确定多个目标多媒体数据，进而将该多个目标多媒体数据推荐给该目标账号。在一些实施例中，服务器基于该多个多媒体数据的排序结果，确定排序位于目标位置之前的多个目标多媒体数据，并从多媒体数据库中获取该多个目标多媒体数据的相关信息，进而将该多个目标多媒体数据的相关信息发送给目标账号，实现多媒体数据的推荐。

通过本公开提供的方案确定出的排序结果，为目标账号进行多媒体数据的推荐，以保证推荐给目标账号的目标多媒体数据，是与目标账号输入搜索关键词相关且内容质量较高，而且热度较高的多媒体数据，提高多媒体数据的推荐效果，进而提高用户体验。

需要说明的是，本公开提供的方案涉及基于大规模的历史互动操作数据训练行为预测模块，同时使用行为预估模块输出的特征作为LTR的输入，最终作用在多媒体数据的排序结果上，能够用于多种多媒体内容理解场景中。例如，本公开提供的方案能够用于多媒体数据的搜索领域。

本公开实施例提供的方案，通过在接收到目标账号的搜索请求时，确定在目标账号要搜索的搜索关键词下，多个多媒体数据发生互动操作的概率，进而结合多个多媒体数据的相关性特征和质量特征，对这多个多媒体数据进行排序，由于相关性特征能够表示多媒体数据和搜索关键词的匹配程度，质量特征能够表示多媒体数据的内容质量，从而使得排序靠前的多媒体数据是与搜索关键词相关且质量较高的数据，提高了多媒体数据的排序准确性。通过异构Embedding与相关性特征、质量特征建模的方法，来进行多媒体数据排序模型的构建，此外，由于多媒体数据排序模型中复用了Embedding与预估得到的目标账号对多个多媒体数据发生互动操作的概率，能够提高多媒体数据排序模型的排序准确性，从而提高用户体验。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

图7是根据一示例性实施例示出的一种多媒体数据的排序装置的框图，参见图6，该装置包括：

获取单元701，被配置为执行响应于目标账号的搜索请求，获取该搜索请求所携带的搜索关键词；

确定单元702，被配置为执行基于该搜索关键词和多个多媒体数据，确定多个多媒体数据对应的融合特征和该多个多媒体数据对应的概率，一个融合特征用于表示该搜索关键词和一个多媒体数据的特征，一个概率用于表示该目标账号对一个多媒体数据发生互动操作的概率；

排序单元703，被配置为执行基于该多个多媒体数据对应的融合特征、对应概率、该多个多媒体数据的相关性特征和质量特征，对该多个多媒体数据进行排序，该相关性特征用于表示该多个多媒体数据与该搜索关键词的匹配程度，该质量特征用于表示该多个多媒体数据的内容质量。

本公开实施例提供的装置，通过在接收到目标账号的搜索请求时，确定在目标账号要搜索的搜索关键词下，多个多媒体数据发生互动操作的概率，进而结合多个多媒体数据的相关性特征和质量特征，对这多个多媒体数据进行排序，由于相关性特征能够表示多媒体数据和搜索关键词的匹配程度，质量特征能够表示多媒体数据的内容质量，从而使得排序靠前的多媒体数据是与搜索关键词相关且质量较高的数据，提高了多媒体数据的排序准确性。

在一些实施例中，该确定单元702，被配置为执行提取该搜索关键词的特征和该多个多媒体数据的特征，对该搜索关键词的特征和该多个多媒体数据的特征进行融合，得到该多个多媒体数据对应的融合特征，基于该多个多媒体数据对应的融合特征，确定该目标账号对该多个多媒体数据发生互动操作的概率，作为该多个多媒体数据对应的概率。

在一些实施例中，该排序单元703包括确定子单元和排序子单元；

在一些实施例中，该装置还包括：

在一些实施例中，该装置包括：

在一些实施例中，该确定单元702，还被配置为执行基于该多个多媒体数据的排序结果，确定多个目标多媒体数据；

该装置还包括：

需要说明的是：上述实施例提供的多媒体数据的排序装置在对多媒体数据进行排序时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将电子设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的多媒体数据的排序装置与多媒体数据的排序方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8是根据一示例性实施例示出的一种服务器800的框图，该服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(Central ProcessingUnits，CPU)801和一个或多个的存储器802，其中，该一个或多个存储器802中存储有至少一条指令，该至少一条指令由该一个或多个处理器801加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器800还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器800还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器802，上述指令可由服务器800的处理器801执行以完成上述方法。在一些实施例中，存储介质可以是非临时性计算机可读存储介质，例如，该非临时性计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种应用程序产品，该应用程序产品存储有一条或多条指令，该一条或多条指令可以由服务器800的处理器801执行，以完成上述实施例中提供的多媒体数据的排序方法的方法步骤。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种多媒体数据的排序方法，其特征在于，所述方法包括：

响应于目标账号的搜索请求，获取所述搜索请求所携带的搜索关键词；

基于所述搜索关键词和多个多媒体数据，确定多个多媒体数据对应的融合特征和所述多个多媒体数据对应的概率，一个融合特征用于表示所述搜索关键词和一个多媒体数据的特征，一个概率用于表示所述目标账号对一个多媒体数据发生互动操作的概率；

基于所述多个多媒体数据对应的融合特征、对应概率、所述多个多媒体数据的相关性特征和质量特征，对所述多个多媒体数据进行排序，所述相关性特征用于表示所述多个多媒体数据与所述搜索关键词的匹配程度，所述质量特征用于表示所述多个多媒体数据的内容质量。

2.根据权利要求1所述的多媒体数据的排序方法，其特征在于，所述基于所述搜索关键词和多个多媒体数据，确定多个多媒体数据对应的融合特征和所述多个多媒体数据对应的概率包括：

提取所述搜索关键词的特征和所述多个多媒体数据的特征；

对所述搜索关键词的特征和所述多个多媒体数据的特征进行融合，得到所述多个多媒体数据对应的融合特征；

基于所述多个多媒体数据对应的融合特征，确定所述目标账号对所述多个多媒体数据发生互动操作的概率，作为所述多个多媒体数据对应的概率。

3.根据权利要求1所述的多媒体数据的排序方法，其特征在于，所述基于所述多个多媒体数据对应的融合特征、对应概率、所述多个多媒体数据的相关性特征和质量特征，对所述多个多媒体数据进行排序包括：

基于所述多个多媒体数据对应的融合特征、对应概率、所述多个多媒体数据的相关性特征和质量特征，确定所述多个多媒体数据的排序信息，所述排序信息用于指示所述多个多媒体数据的推荐分数；

根据所述排序信息，对所述多个多媒体数据进行排序。

4.根据权利要求3所述的多媒体数据的排序方法，其特征在于，所述基于所述多个多媒体数据对应的融合特征、对应概率、所述多个多媒体数据的相关性特征和质量特征，确定所述多个多媒体数据的排序信息包括：

对所述多个多媒体数据对应的融合特征进行降维处理，其中，降维处理后的多个融合特征的维度，与所述多个多媒体数据的相关性特征的维度和质量特征的维度满足第一目标条件；

基于所述降维处理后的多个融合特征、对应概率、所述多个多媒体数据的相关性特征和质量特征，确定所述多个多媒体数据的排序信息。

5.根据权利要求1所述的多媒体数据的排序方法，其特征在于，所述方法还包括：

将所述搜索关键词和多个多媒体数据输入多媒体数据排序模型的行为预测模块，通过所述行为预测模块，基于所述搜索关键词和多个多媒体数据进行处理，得到多个多媒体数据对应的融合特征和所述多个多媒体数据对应的概率；

将所述多个多媒体数据对应的融合特征、对应概率、所述多个多媒体数据的相关性特征和质量特征输入所述多媒体数据排序模型的排序学习模块，通过所述排序学习模块，基于所述多个多媒体数据对应的融合特征、对应概率、所述多个多媒体数据的相关性特征和质量特征，对所述多个多媒体数据进行排序。

6.根据权利要求5所述的多媒体数据的排序方法，其特征在于，所述行为预测模块的训练过程包括：

获取多个第一样本多媒体数据以及所述多个第一样本多媒体数据的历史操作数据；

将所述多个第一样本多媒体数据输入初始模型的初始行为预测模块，通过所述初始行为预测模块，确定多个样本概率，一个样本概率用于表示一个账号对一个第一样本多媒体发生互动操作的样本概率；

基于所述多个样本概率以及所述多个第一样本多媒体数据的历史操作数据，对所述初始行为预测模块的参数进行调整，直至调整后的初始行为预测模块满足第二目标条件，将满足第二目标条件的初始行为预测模块作为所述多媒体数据排序模型的行为预测模块。

7.根据权利要求5所述的多媒体数据的排序方法，其特征在于，所述排序学习模块的训练过程包括：

获取多个第二样本多媒体数据以及所述多个第二样本多媒体数据的排序标注数据；

将所述多个第二样本多媒体数据输入初始模型的初始排序学习模块，通过所述初始排序学习模块，确定多个样本排序信息，一个样本排序信息用于表示一个第二样本多媒体数据的样本推荐分数；

基于所述多个样本排序信息以及所述多个第二样本多媒体数据的排序标注数据，对所述初始排序学习模块的参数进行调整，直至调整后的初始排序学习模块满足第三目标条件，将满足第三目标条件的初始排序学习模块作为所述多媒体数据排序模型的排序学习模块。

8.一种多媒体数据的排序装置，其特征在于，所述装置包括：

获取单元，被配置为执行响应于目标账号的搜索请求，获取所述搜索请求所携带的搜索关键词；

确定单元，被配置为执行基于所述搜索关键词和多个多媒体数据，确定多个多媒体数据对应的融合特征和所述多个多媒体数据对应的概率，一个融合特征用于表示所述搜索关键词和一个多媒体数据的特征，一个概率用于表示所述目标账号对一个多媒体数据发生互动操作的概率；

排序单元，被配置为执行基于所述多个多媒体数据对应的融合特征、对应概率、所述多个多媒体数据的相关性特征和质量特征，对所述多个多媒体数据进行排序，所述相关性特征用于表示所述多个多媒体数据与所述搜索关键词的匹配程度，所述质量特征用于表示所述多个多媒体数据的内容质量。

9.一种服务器，其特征在于，所述服务器包括：

一个或多个处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的多媒体数据的排序方法。

10.一种存储介质，其特征在于，当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行如权利要求1至7中任一项所述的多媒体数据的排序方法。