CN113377972A

CN113377972A - 多媒体内容推荐方法、装置、计算设备和存储介质

Info

Publication number: CN113377972A
Application number: CN202010158079.6A
Authority: CN
Inventors: 包淑彦
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2021-09-10

Abstract

本申请公开了一种多媒体内容推荐方法、装置、计算设备和存储介质。通过从多媒体内容中提取文本信息；对所提取的文本信息进行分词处理以得到文本信息的各个分词；基于已训练的神经网络模型对文本信息的各个分词进行编码，得到各个分词的词向量；将各个分词的词向量与特征库中预存的特征向量进行匹配，特征向量为预先通过神经网络模型对具有指定意图的分词进行编码得到的；指定意图为请求用户针对多媒体内容产生交互行为；根据匹配到的特征向量确定多媒体内容的意图与指定意图的匹配度；基于多媒体内容的意图与指定意图的匹配度，确定多媒体内容的推荐排序。由此，通过基于多媒体内容本身的信息来为实现针对该多媒体内容的精准评估提供支持。

Description

多媒体内容推荐方法、装置、计算设备和存储介质

技术领域

本申请涉及视频分析技术领域，特别涉及一种多媒体内容推荐方法、装置、计算设备和存储介质。

背景技术

随着互联网网络科技的发展，越来越多的人们可以通过互联网进行各种活动，例如人们可以通过互联网观看视频、阅读新闻以及体验其它娱乐服务等。在这之中，服务开发商往往通过个性化推荐，来向用户投放用户可能感兴趣的内容。

以视频为例，目前，针对视频的个性化推荐，大多是根据用户对视频的交互数据来对视频进行排序，拥有更多点击、点赞、关注、评论等用户交互的视频往往会有更多的分发和曝光机会。在这之中，往往通过用户的负向反馈，例如，取消点赞、取消关注等用户交互行为，来进行异常识别并对视频的排序进行纠偏，以取消不公平的分发流量。

然而，实际中，若是用户误操作也会产生取消点赞、取消关注等负向反馈，这会影响所采集到的负向反馈信息的准确性。而且，用户的取消点赞和关注等行为是极其稀疏的行为，几十万的视频曝光往往只能采集到一些数据发现异常，而此时已经浪费了很多流量。另外，由于这些负向反馈的稀疏性，数据的波动性也非常大，误判的可能性也很大，并且，后置纠偏的方式反应时间较久，等到后置纠偏生效时，大部分视频的推荐生命周期已结束，后置纠偏的方式覆盖率很低。

因此，如何有效评估视频，是亟需解决的技术问题之一。

发明内容

本申请的目的是提供一种多媒体内容推荐方法、装置、计算设备和存储介质，以为实现针对多媒体内容的精准推荐或是为内容审核提供支持。

第一方面，本申请提供了一种多媒体内容推荐方法，所述方法包括：

从所述多媒体内容中提取文本信息；

对所提取的文本信息进行分词处理，以得到所述文本信息的各个分词；

基于已训练的神经网络模型对所述文本信息的各个分词进行编码，得到所述各个分词的词向量；

将所述各个分词的词向量与特征库中预存的特征向量进行匹配，所述特征向量为预先通过所述神经网络模型对具有指定意图的分词进行编码得到的；所述指定意图为请求用户针对所述多媒体内容产生交互行为；

根据匹配到的特征向量确定所述多媒体内容的意图与所述指定意图的匹配度；

基于所述多媒体内容的意图与所述指定意图的匹配度，确定所述多媒体内容的推荐排序，并基于所述推荐排序推荐所述多媒体内容。

可选的，将所述各个分词的词向量与特征库中预存的特征向量进行匹配，包括：

确定所述各个分词的词向量与所述特征库中的特征向量的相似度；

对于任一词向量，若存在任一特征向量与所述词向量的相似度大于预定相似度阈值，则确定所述词向量与所述特征向量匹配成功。

可选的，根据匹配到的特征向量确定所述多媒体内容的意图与所述指定意图的匹配度，包括：

确定匹配到的特征向量的指定意图值，所述指定意图值用于表征所述特征向量对应的分词的意图为所述指定意图的概率；

根据各特征向量的指定意图值与匹配度的正相关关系，确定所述多媒体内容的意图与所述指定意图的匹配度。

可选的，所述特征库中存储有预先为每个特征向量设置的指定意图值，所述指定意图值是所述特征向量与标准特征向量的相似度，所述标准特征向量是对基于业务确定的具有指定意图的分词进行编码得到的；或，

以所述各个分词的词向量与其匹配到的特征向量的相似度作为所述匹配到的特征向量的指定意图值。

可选的，对所述文本信息进行分词处理之后，所述方法还包括：

统计同一分词在所述文本信息中出现的频次；

根据匹配到的特征向量确定所述多媒体内容的意图与所述指定意图的匹配度，包括：

根据预设的匹配度分别与匹配到的特征向量的指定意图值和频次的正相关关系，确定多媒体内容的意图与所述指定意图的匹配度。

可选的，所述多媒体内容的推荐排序与所述匹配度正相关；或者

所述多媒体内容的推荐排序与所述匹配度负相关。

可选的，所述文本信息中包括以下信息中的至少一种：所述多媒体内容的原始文本信息、所述多媒体内容的音频信息转换得到的文本信息，从所述多媒体内容的图像中提取的文本信息。

第二方面，本申请实施例提供了一种多媒体内容推荐装置，所述方法包括：

文本信息获取单元，用于从所述多媒体内容中提取文本信息；

分词处理单元，用于对所提取的文本信息进行分词处理，以得到所述文本信息的各个分词；

编码单元，用于基于已训练的神经网络模型对所述文本信息的各个分词进行编码，得到所述各个分词的词向量；

匹配单元，用于将所述各个分词的词向量与特征库中预存的特征向量进行匹配，所述特征向量为预先通过所述神经网络模型对具有指定意图的分词进行编码得到的；所述指定意图为请求用户针对所述多媒体内容产生交互行为；

匹配度确定单元，用于根据匹配到的特征向量确定所述多媒体内容的意图与所述指定意图的匹配度；

推荐单元，用于基于所述多媒体内容的意图与所述指定意图的匹配度，确定所述多媒体内容的推荐排序，并基于所述推荐排序推荐所述多媒体内容。

可选的，匹配单元用于：

可选的，匹配度确定单元用于：

可选的，所述装置还包括：

统计单元，用于在分词处理单元对所述文本信息进行分词处理之后，统计同一分词在所述文本信息中出现的频次；

匹配度确定单元用于：

可选的，所述多媒体内容的推荐排序与所述匹配度正相关；或者所述多媒体内容的推荐排序与所述匹配度负相关。

第三方面，本申请另一实施例还提供了一种计算设备，包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请实施例提供的任一多媒体内容推荐方法。

第四方面，本申请另一实施例还提供了一种计算机存储介质，其中，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行本申请实施例中的任一多媒体内容推荐方法。

本申请实施例提供的多媒体内容推荐方案，通过从多媒体内容中提取以各种形式表达的信息转换得到的文本信息，并结合已训练的神经网络模型，来确定该多媒体内容与指定意图的匹配度，以评估多媒体内容的意图，基于该匹配度能够用于确定多媒体内容的推荐排序，从而为实现对多媒体内容的精准推荐提供支持。在一些实施例中，例如还可以基于该匹配度对多媒体内容的原推荐排序进行调整，例如降低推荐排序分值，以为提高向用户方进行多媒体内容推荐的准确率提供支持。基于该方案，无需等待用户的各种负向反馈信息，并能够纠正被扭曲的用户反馈信号，提高用户观感。与此相反，在另一个实施例中，面向服务运维方时，基于该方案，还可以基于所得的多媒体内容的意图与所述指定意图的匹配度调整多媒体内容的推荐排序，例如提高多媒体内容的推荐排序分值，使得运维人员能够快速地从海量视频作品中筛选出质量较差的作品，以为内容审核提供支持。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本申请一个实施例的应用环境的示意图；

图2为根据本申请一个实施例的多媒体内容推荐系统的示意图；

图3为根据本申请一个实施例的多媒体内容推荐方法的流程示意图；

图4为根据本申请一个实施例的训练神经网络模型的流程示意图；

图5为根据本申请一个实施例的多媒体内容推荐流程的一个例子；

图6为根据本申请一个实施例的多媒体内容推荐装置的示意图；

图7为根据本申请一个实施例的计算设备的示意图。

具体实施方式

如前所述，视频的个性化推荐，通常是在获得用户授权后根据用户的静态属性以及历史视频交互行为(例如用户对视频的点击、点赞、关注、评论、厌恶等交互行为)来预测候选视频的排序分值，并基于用户对视频的负向反馈交互数据来进行异常识别并对其排序分值进行纠偏，以取消不公平的分发流量。换言之，现有的推荐系统中，用户的行为数据尤为重要，是决定视频的推荐排序的决定性因素。

然而，基于用户交互行为的内容推荐往往存在诸多不足。

例如，用户误操作也会产生取消点赞、取消关注等负向反馈，这会影响所采集到的负向反馈信息的准确性。

又例如，存在冷启动问题，若没有用户反馈信息推荐系统将无法工作。

又例如，用户的取消点赞和关注等是极其稀疏的行为，几十万的视频曝光往往只能采集到一些数据发现异常，而此时已经浪费了很多流量。

还例如，由于这些负向反馈的稀疏性，数据的波动性也非常大，误判的可能性也很大，并且这种后置纠偏的方式反应时间比较慢，等到后置纠偏生效时，大部分视频其实已结束其推荐生命周期了，后置纠偏的方式覆盖率很低。

因此，上述不足均会严重影响视频推荐的准确率，并造成较低的转化率。

发明人发现，当前，存在一定比例的视频，作者在其内容中显示或隐示地请求用户进行点击(例如标题党、封面党等)、点赞、关注等交互行为，其内容中也常常会存在以各种形式表示的求赞/求关注等信息。而这部分视频作品的质量通常较为一般甚至低俗，利用求赞甚至骗取点赞、关注的方式劫持到超出应得水平的流量分配，这会拉低社区调性，导致后续用户的高取赞/取关行为，同时也导致用户画像出现偏差。若基于此来向用户进行视频推荐，将会拉低用户的推荐体验。

有鉴于此，本申请提出了一种多媒体内容推荐方案，通过从多媒体内容中提取以各种形式表达的信息对应的文本信息，并结合已训练的神经网络模型，来确定该多媒体内容的意图与指定意图的匹配度，并基于该匹配度为实现针对该多媒体内容的精准评估提供支持。其中，指定意图可以为请求用户针对所述多媒体内容产生交互行为。

该匹配度能够用于对多媒体内容的推荐排序进行调整，例如降低推荐排序分值，以为提高向用户方进行多媒体内容推荐的准确率提供支持。基于该方案，无需等待用户的各种负向反馈信息，并能够纠正被扭曲的用户反馈信号，提高用户观感。与此相反，在另一个实施例中，面向服务运维方，基于该方案，还可以基于所得的匹配度，例如可以提高多媒体内容的推荐排序分值，使得运维人员能够快速地从海量内容作品中筛选出质量较差的作品，以为内容审核提供支持。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。其中，在下文描述中，以“视频”作为本申请的多媒体内容的一个示例，来对本申请的多媒体内容推荐方案进行详细说明。应当理解的是，该推荐方案也适用于其它类型的多媒体内容，例如新闻资讯、短视频、广播、信息流等，本申请对此不做限制。

图1为根据本申请一个实施例的应用环境的示意图。

如图1所示，该应用环境中可以包括至少一个服务器20和多个终端设备10。终端设备10可以经由网络40实现与服务器20的信息收发。服务器20可以通过访问数据库30来获取终端设备10所需的内容。终端设备之间(例如，10_1与10_2或10_N之间)也可以经由网络40彼此通信。网络40可以是广义上的用于信息传递的网络，可以包括一个或多个通信网络，诸如无线通信网络、因特网、私域网、局域网、城域网、广域网或是蜂窝数据网络等。

应当注意，如果向图示环境中添加附加模块或从其中去除个别模块，不会改变本发明的示例实施例的底层概念。另外，虽然为了方便说明而在图中示出了从数据库30到服务器20的双向箭头，但本领域技术人员可以理解的是，上述数据的收发也是可以通过网络40实现的。

在图1所示的应用环境中，终端设备10是可用来进行网络访问的任何合适的电子设备，包括但不限于计算机、智能电话、平板电脑或是其它类型的终端或客户端。

服务器20则是能够通过网络访问的提供交互服务所需信息的任何服务器。

在随后的描述中会选择其中的一个或部分终端设备加以描述(例如，终端设备10-1)，但是本领域技术人员应该理解的是，上述1…N个终端设备旨在表示真实网络中存在的大量终端，示出的单个服务器20和数据库30旨在表示本申请的技术方案可以涉及服务器及数据库的操作。对特定编号的终端以及单个服务器和数据库加以详述至少为了说明方便，而非暗示对终端和服务器的类型或是位置或是其它等具有限制。

在一个实施例中，终端设备10侧可以安装并运行相关应用程序，例如用于向用户呈现多媒体内容的客户端，例如视频客户端。终端设备10侧的用户可以与客户端界面进行交互操作，例如经由该应用程序提供其个人创作的视频作品(即用户生成内容UserGenerated Content，简称UGC)，或是观看由他人或服务开发商提供的视频作品，或是对所呈现的视频或其它内容的点赞、关注、评论、转发等交互操作。终端设备10可以经由网络40实现与服务器20的信息收发。服务器20可以为终端设备10侧的用户提供交互服务所需的信息(例如针对交互操作的响应)，还可以通过访问数据库30来获取终端设备10所需的内容，例如视频或其它多媒体内容。数据库30可以存储众多用户或是服务开发商提供信息，例如用户信息、多媒体内容，还可以存储程序代码或相关参数，例如机器学习模型的参数等，在此不再赘述。应当理解的是，上述仅是对本申请的终端设备、服务器、数据库等的功能举例而非任何限定，在其它实施例中，其各自的功能还可以有其它实现方式，本申请对此不做限制。

图2为根据本申请一个实施例的多媒体内容推荐系统的示意图。该多媒体内容推荐系统例如可以被配置在图1所示的服务器20侧，并能够实现对来自终端设备10的多媒体内容(例如视频)或是存储在数据库30的多媒体内容或是其它来源的多媒体内容的意图与指定意图的匹配度的评估。应当理解的是，在此仅是示例性地示出了本申请的多媒体内容推荐系统的应用场景，在其它实施例中，该多媒体内容推荐系统例如也可以被配置在指定终端设备侧，或是部分功能被配置在服务器侧部分功能被配置在终端设备侧，本申请对此不做限制。并且，本文中述及的用户行为数据或是与用户相关的其它信息均是在获得用户授权后获取的。

如图2所示，该多媒体内容推荐系统200例如可以包括文本信息获取模块210、分词处理模块220、编码模块230、匹配模块240、匹配度确定模块250、推荐模块260以及特征库270。

其中，文本信息获取模块210可以用于从多媒体内容中提取文本信息，所述文本信息中包括以下信息中的至少一种：所述多媒体内容的原始文本信息、所述多媒体内容的音频信息转换得到的文本信息，从所述多媒体内容的图像中提取的文本信息。分词处理模块220可以用于对所提取的文本信息进行分词处理，以得到所述文本信息的各个分词。编码模块230可以用于基于已训练的神经网络模型对所述文本信息的各个分词进行编码，得到所述各个分词的词向量。匹配模块240可以用于将所述各个分词的词向量与特征库270中预存的特征向量进行匹配，所述特征向量为预先通过所述神经网络模型对具有指定意图的分词进行编码得到的，所述指定意图为请求用户针对所述多媒体内容产生交互行为。根据匹配到的特征向量确定所述多媒体内容的意图与所述指定意图的匹配度。匹配度确定模块250可以用于根据匹配到的特征向量确定所述多媒体内容的意图与所述指定意图的匹配度。推荐模块260可以用于基于所述多媒体内容的意图与所述指定意图的匹配度，确定所述多媒体内容的推荐排序。

由此，通过从多媒体内容中提取以各种形式表达的信息对应的文本信息，并结合已训练的神经网络模型，来确定多媒体内容的意图与指定意图的匹配度，以基于该匹配度来为实现对该多媒体内容的精准评估提供支持。例如，该匹配度例如可以用于对多媒体内容的推荐排序进行调整，例如降低排序分值或升高排序分值，这样，在面向不同的人员(例如用户或是服务运维人员)时，则可以根据业务需要分别向相应的人员进行多媒体内容的推荐，既可以提高向用户进行多媒体内容推荐的准确率，又能够使得运维人员可以快速地从海量多媒体内容的作品中筛选出质量较差的作品，以为内容审核提供支持。基于该方案，无需等待用户的各种负向反馈信息，并能够纠正被扭曲的用户反馈信号，能够提高用户观感。

如下将结合附图及实施例详细说明本申请的多媒体内容推荐方案的具体实现。

图3为根据本申请一个实施例的多媒体内容推荐方法的流程示意图。

如图3所示，在步骤S310，从多媒体内容中提取文本信息。

这里，多媒体内容例如为待处理视频，该待处理视频则可以是待向用户进行推荐的视频，或是待进行内容质量审核的视频。在下文描述中将以待处理视频为例对本文的多媒体内容推荐方法的各个步骤进行详细说明。

在一个实施例中，所提取的文本信息可以是从多媒体内容中以任何形式表示的信息中提取出或转换得到的文本信息。文本信息中例如包括以下信息中的至少一种：所述多媒体内容的原始文本信息(例如，包括但不限于视频标题、视频字幕、视频帧中的文字等)、所述多媒体内容的音频信息转换得到的文本信息，从所述多媒体内容的图像中提取的文本信息，或者是从其它形式的信息中提取(或转换得到)的文本信息，本申请对此不做限制。其中，对于不同形式的信息，可以通过相应的手段来提取或转换得到文本信息，例如对图像文字识别、语音识别等，在此不再赘述。

所得到的文本信息可以以文本格式存储。其中，可以预先在数据库中存储多媒体内容的相关文本信息，并在需要对该多媒体内容进行推荐或是内容质量评估时，从数据库中获取多媒体内容的相关文本信息并进行相应的处理。当然，也可以是在需要对多媒体内容进行推荐或内容审核时，实时地获取其相关文本信息，本申请对获取多媒体内容的文本信息的时机不做限制。

在步骤S320，对所提取的文本信息进行分词处理，以得到所述文本信息的各个分词。

以视频为例，从视频中以各种形式表示的信息中获取到的相关文本信息可能包括长句、短句、短语、词、字等，也可能包括符号等，本申请实施例中例如可以基于预定的分词工具来执行分词处理的步骤，也可以基于预定的分词规则来执行分词处理的步骤，本申请对此不做限制。若多媒体内容中的信息形式多变，则可以基于相适应的分词处理技术来进行分词处理，在此不再赘述。

在步骤S330，基于已训练的神经网络模型对所述文本信息的各个分词进行编码，得到所述各个分词的词向量。

本申请实施例中，神经网络模型可以是预先训练得到的，该神经网络模型例如可以被配置在图2所示的编码模块230侧，并能够实现对文本分词的编码以得到文本分词对应的词向量。实施时，可以将从多媒体内容中提取的文本信息的各个分词输入所述神经网络模型，并输出得到各个分词对应的词向量。

本申请实施例中，可以基于训练样本训练该神经网络模型。图4为根据本申请一个实施例的训练神经网络模型的流程示意图。

如图4所示，在步骤S410，获取训练样本。

训练样本中可以包括训练分词、训练分词对应的训练词向量、以及用于表示所述训练分词是否具有指定意图的标注。其中，训练分词可以是通过对训练文本信息进行分词处理得到的，所述训练词向量可以是通过对所述训练分词进行编码得到的，标注可以用于确定基于训练分词编码得到的词向量是否能够预存以作为评估词向量的特征向量，也即确定词向量对应的文本分词是否具有指定意图。

本申请实施例中，可以通过多种方式获取训练文本信息。训练文本信息例如可以包括以下信息中的至少一种：用于训练的内容的原始文本信息；用于训练的内容的音频信息转换得到的文本信息；从用于训练的内容的图像中提取的文本信息；从用于训练的内容的表情符号中提取的文本信息等。而用于训练的内容例如可以是获取的海量的互联网内容，包括但不限于文本、视频、音频、图像、表情符号等，在此不再赘述。

在步骤S420，基于所述训练样本，训练神经网络模型，以使得所述神经网络模型能够对文本分词进行编码以得到对应的词向量，以能够确定词向量对应文本分词的意图与指定意图的匹配度。训练时，可以基于分词对应的标注确定其词向量是否能够作为评估词向量的特征向量，并实现对神经网络模型的模型参数的训练。

以视频为例，经实验验证，发明人发现，正常视频的取消点赞率和取关率在一个合理的正态分布曲线范围内，若一个视频的取赞率/取关率超过预定的置信区间(例如99％)时，该视频可能为存在请求点赞或关注等可能的视频，导致用户根据视频中存在的请求用户点赞或关注的信息进行操作后又取消而引起较高的取赞率/取关率。此时，则需要对该视频的意图进行评估并对其推荐排序进行纠偏。

因此，为保障神经网络模型的准确性以及可用性，在一个实施例中，可以从历史取消率(例如取消点赞或关注等的概率)异常高(例如大于预设的取消率阈值)的视频中获取训练文本信息作为初始样本集，筛选出包含请求点赞或请求关注等信息的视频来获取正样本集合，并可以随机负采样低取消率的视频来获取负样本集合。然后，基于正样本集合和负样本集合训练神经网络模型。

基于已训练得到的神经网络模型，可以从数据集合中学习出与指定意图相关性较高的词向量，作为特征库中的特征向量，以用于在应用阶段对多媒体内容的意图进行评估。其中，特征库中例如可以包括对基于业务确定的具有指定意图的分词进行编码得到的标准特征向量，也可以将与标准特征向量的相似度sim(word)大于一定阈值的词向量作为特征向量维护至特征库，实际中，业务可以有多种展现方式，本申请对此不做限制。

在步骤S340，将所述各个分词的词向量与特征库中预存的特征向量进行匹配，所述特征向量为预先通过所述神经网络模型对具有指定意图的分词进行编码得到的。所述指定意图为请求用户针对所述多媒体内容产生交互行为。

实施时，可以确定各个分词的词向量与所述特征库中预存的特征向量的相似度，对于任一词向量，若存在任一特征向量与所述词向量的相似度大于预定相似度阈值，则确定所述词向量与所述特征向量匹配成功，若未能匹配到特征向量则匹配失败。

然后，在步骤S350，根据匹配到的特征向量确定所述多媒体内容的意图与指定意图的匹配度。在步骤S360，基于所述多媒体内容的意图与所述指定意图的匹配度，确定所述多媒体内容的推荐排序，并基于所述推荐排序推荐所述多媒体内容。

实施时，例如可以确定匹配到的特征向量的指定意图值，并根据各特征向量的指定意图值与匹配度的正相关关系，确定所述多媒体内容的意图与指定意图的匹配度。

指定意图值可以用于表征所述特征向量对应的分词的意图为指定意图的概率。其中，特征库中可以存储有预先为每个特征向量设置的指定意图值，该指定意图值可以为特征向量与标准特征向量的相似度，标准特征向量可以是基于业务确定的具有指定意图的分词进行编码得到的。或者，也可以以各个分词的词向量与其匹配到的特征向量的相似度作为所述匹配到的特征向量的指定意图值。

上述正相关关系可以是指预设的匹配度的计算方式，本申请实施例中，匹配度与特征向量的指定意图值可以是正相关关系。

例如，匹配度可以为其各个分词的词向量与其匹配到的特征向量的相似度之和，如下公式(1)：

G＝∑(sim(word)_i) (1)

其中，i为自然数，表示多媒体内容的第i个分词；sim(word)_i表示第i个分词与其匹配到的特征向量的相似度,G表示多媒体内容的意图与指定意图的匹配度。

或者，匹配度可以为其各个分词的词向量匹配到的特征向量的设置的指定意图值之和，如下公式(2):

∑(A_i) (2)

其中，i为自然数，表示多媒体内容的第i个分词；A_i表示特征库中存储的为第i个分词匹配到的特征向量设置的指定意图值,G表示多媒体内容的意图与指定意图的匹配度。

或者，匹配度可以为其各个分词的词向量与其匹配到的特征向量的相似度及其匹配到的各特征向量的设置的指定意图值之和的叠加，如下公式(3)：

∑(sim(word)+A_i) (3)

其中，i为自然数，表示多媒体的第i个分词；sim(word)_i表示第i个分词与其匹配到的特征向量的相似度，A_i表示特征库中存储的为第i个分词匹配到的特征向量设置的指定意图值,G表示多媒体内容的意图与指定意图的匹配度。

应当理解的是，上述仅是对本申请中指定意图值与匹配度的正相关关系的举例而非限定，在其它实施例中，正相关关系也可以设置为其它计算方式，本申请对此不做限制。

在一个实施例中，同一分词也可能在同一视频中多次出现。在此，在对多媒体内容的文本信息进行分词处理之后，还可以统计同一分词在所述文本信息中出现的频次。上述预设的正相关关系还可以包括匹配度与频次的关系，计算时，例如可以根据预设的匹配度分别与指定意图值和频次的正相关关系，确定多媒体内容的意图与指定意图的匹配度。

例如，也可以通过下述公式(4)、(5)或(6)计算多媒体内容的意图与指定意图的匹配度，

∑(sim(word)_i×N_i) (4)

∑(A_i×N_i) (5)

∑((sim(word)+A_i)×N_i) (6)

其中，i为自然数，表示多媒体内容的第i个分词；sim(word)_i表示第i个分词与其匹配到的特征向量的相似度，A_i表示特征库中存储的为第i个分词匹配到的特征向量设置的指定意图值，N_i表示第i个分词在多媒体内容中出现的频次,G表示多媒体内容的意图与指定意图的匹配度。上述公式(4)、(5)或(6)是在公式(1)、(2)或(3)的基础上还考虑了分词的频次，其它部分与上述公式(1)、(2)或(3)相同，在此不再赘述。

作为示例，图5为根据本申请一个实施例的多媒体内容推荐流程的一个例子。

如图5所示，在步骤S501，从多媒体内容中提取文本信息。

在步骤S502，对所提取的文本信息进行分词处理，以得到所述文本信息的各个分词，并确定各个分词在多媒体内容中出现的频次。

在步骤S503，基于已训练的神经网络模型对所述文本信息的各个分词进行编码，得到所述各个分词的词向量。

在步骤S504，将所述各个分词的词向量与特征库中预存的特征向量进行匹配，并确定词向量与匹配到的特征向量的相似度。

在步骤S505，从特征库中查询匹配到的特征向量的预设的指定意图值。

在步骤S506，根据各特征向量的指定意图值与匹配度的正相关关系，确定所述多媒体内容的意图与指定意图的匹配度。例如，根据上述公式(6)得到多媒体内容的意图与指定意图的匹配度。在步骤S507，基于所述多媒体内容的意图与所述指定意图的匹配度，确定所述多媒体内容的推荐排序。

应当理解的是，图5所示的流程图仅为本申请的一个示例说明而非任何限定。

本申请实施例中，多媒体内容的意图与指定意图的匹配度可以具有上限也可以具有上限。其中，若未设置上限，则可以根据多媒体内容的各个分词匹配到的特征向量的预设的指定意图值确定其相应的匹配度；若设置多媒体内容的意图与指定意图的匹配度上限为预设的某一分值(例如10)，若基于预设的计算方式，已基于某个多媒体内容的部分分词计算得到其匹配度大于或等于10，则可以结束对该多媒体内容的其它分词的检测，由此，还可以加快对每个多媒体内容的评估的速度，从而提升基于该匹配度的推荐或是内容审核的效率。

在确定多媒体内容的意图与指定意图的匹配度后，则可将其应用于多媒体内容的个性化推荐中，从而提高推荐的准确率。例如，可以基于该匹配度，对多媒体内容的推荐排序进行调整。

在本申请实施例中，在面向不同的对象时，匹配度与推荐排序分值的关系可以不同。例如，若面向用户，多媒体内容的推荐排序分值可以与所述匹配度负相关。若面向服务运维人员，多媒体内容的推荐排序分值可以与所述匹配度正相关。换言之，若面向用户，则可以降低多媒体内容的排序分值，若面向运维人员，则提升视频的排序分值，从而在不同的场景下均可以得到的改进。

以面向用户和调整多媒体内容的排序分值、以及视频内容为例，本申请实施例中，例如可以通过下述公式(7)计算调整系数D(discount)，并以多媒体内容的原排序分值与对应的调整系数的乘积作为该多媒体内容最终的排序分值，并基于多媒体内容的最终排序分值来向用户进行多媒体内容推荐。

D＝max(base^(B×G/Y)，0.1) (7)

其中，G表示多媒体内容的意图与指定意图的匹配度；Y表示视频时长，单位为ms，其中还可以例如根据业务需要对Y的取值设定上限，例如30000ms；B为设置的常数值，为调节单位，可以以ms为单位，取值例如可以为15000ms；base为可调节调整力度的参数值，也可以根据需求设置，例如可以为0.5。

实际业务场景中，由于存在不同的视频的总时长不同的问题，其具有指定意图的文本信息在视频中分布也不同，有的视频约几分钟，可能出现2次求赞信息，有的视频可能约3s全程是求赞信息。本申请上述公式(7)注重于单位时长求赞次数而非总次数，能够实现对不同视频的区分对待，从而保障对视频推荐排序的调整的准确性。

由此，通过取得的视频的意图与指定意图的匹配度来对视频的推荐排序分值进行调整，可以显著降低请求点赞/关注的视频的曝光，降低用户被推荐该视频的机会，从而避免因基于用户负向反馈带来后续的不准确推荐，使得用户能够持续获得更好的推荐体验，用户观看视频时长增加，提升转化率。并且，由于该视频的曝光机会下降而难以获得额外的流量，在发现此种方式不能获得收益后，用户也会主动放弃在视频内容中增加请求点赞或关注的信息，从而使得社区调性得到提高。

与上述调整系数相似，在面向运维人员以及提升视频排序分值时，也可以通过预设的公式计算得到提升系数R(rise)，并以视频的原排序分值与对应的提升系数的乘积作为该视频最终的排序分值，并基于视频的最终排序分值来向运维人员推送视频来进行内容审核，在此不再赘述。

由此，上述多媒体内容推荐方案，通过从多媒体内容中提取以各种形式表达的信息对应的文本信息，并结合已训练的神经网络模型，来确定多媒体内容的意图与指定意图的匹配度，以评估该多媒体内容，从而为实现针对多媒体内容的精准推荐或是内容审核提供支持。

进一步地，该匹配度能够用于确定多媒体内容的推荐排序或是对多媒体内容的原推荐排序进行调整，例如降低推荐排序分值，以为提高向用户方进行多媒体内容推荐的准确率提供支持。基于该方案，无需等待用户的各种负向反馈信息，并能够纠正被扭曲的用户反馈信号，提高用户观感。与此相反，在另一个实施例中，面向服务运维方，基于该方案，还可以基于所得的匹配度，例如可以提高多媒体内容的推荐排序分值，使得运维人员能够快速地从海量作品中筛选出质量较差的作品，以为内容审核提供支持。

基于相同的构思，本申请实施例还提出了一种多媒体内容推荐装置，该多媒体内容推荐装置可以用于实现上述的多媒体内容推荐方法。

图6为根据本申请一个实施例的多媒体内容推荐装置的示意图。

如图6所示，该多媒体内容推荐装置600可以包括：

文本信息获取单元610，用于从所述多媒体内容中提取文本信息；

分词处理单元620，用于对所提取的文本信息进行分词处理，以得到所述文本信息的各个分词；

编码单元630，用于基于已训练的神经网络模型对所述文本信息的各个分词进行编码，得到所述各个分词的词向量；

匹配单元640，用于将所述各个分词的词向量与特征库中预存的特征向量进行匹配，所述特征向量为预先通过所述神经网络模型对具有指定意图的分词进行编码得到的；所述指定意图为请求用户针对所述多媒体内容产生交互行为；

匹配度确定单元650，用于根据匹配到的特征向量确定所述多媒体内容的意图与所述指定意图的匹配度；

推荐单元660，用于基于所述多媒体内容的意图与所述指定意图的匹配度，确定所述多媒体内容的推荐排序，并基于所述推荐排序推荐所述多媒体内容。

在一个实施例中，匹配单元用于：

在一个实施例中，匹配度确定单元用于：

在一个实施例中，所述特征库中存储有预先为每个特征向量设置的指定意图值，所述指定意图值是所述特征向量与标准特征向量的相似度，所述标准特征向量是对基于业务确定的具有指定意图的分词进行编码得到的；或，

在一个实施例中，所述装置还包括：

匹配度确定单元用于：

在一个实施例中，

所述多媒体内容的推荐排序与所述匹配度正相关；或者

所述多媒体内容的推荐排序与所述匹配度负相关。

在一个实施例中，所述文本信息中包括以下信息中的至少一种：所述多媒体内容的原始文本信息、所述多媒体内容的音频信息转换得到的文本信息，从所述多媒体内容的图像中提取的文本信息。

至此，已经结合图6介绍了执行本申请的多媒体内容推荐方法的装置，其功能的具体实现可参见上文结合图1-图5的相关描述，在此不再赘述。

在介绍了本申请示例性实施方式的一种多媒体内容推荐方法和装置之后，接下来，介绍根据本申请的另一示例性实施方式的计算设备。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本申请的计算设备可以至少包括至少一个处理器、以及至少一个存储器。其中，存储器存储有程序代码，当程序代码被处理器执行时，使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的多媒体内容推荐方法中的步骤。例如，处理器可以执行如图3所示的步骤。

下面参照图7来描述根据本申请的这种实施方式的计算设备130。图7显示的计算设备130仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图7所示，计算设备130以通用计算设备的形式表现。计算设备130的组件可以包括但不限于：上述至少一个处理器131、上述至少一个存储器132、连接不同系统组件(包括存储器132和处理器131)的总线133。

总线133表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器132可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1321和/或高速缓存存储器1322，还可以进一步包括只读存储器(ROM)1323。

存储器132还可以包括具有一组(至少一个)程序模块1324的程序/实用工具1325，这样的程序模块1324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备130也可以与一个或多个外部设备134(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与计算设备130交互的设备通信，和/或与使得该计算设备130能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口135进行。并且，计算设备130还可以通过网络适配器136与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器136通过总线133与用于计算设备130的其它模块通信。应当理解，尽管图中未示出，可以结合计算设备130使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在一些可能的实施方式中，本申请提供的一种多媒体内容推荐方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的一种多媒体内容推荐方法中的步骤，例如，计算机设备可以执行如图3所示的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的用于多媒体内容推荐的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在计算设备上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种多媒体内容推荐方法，其特征在于，所述方法包括：

从所述多媒体内容中提取文本信息；

2.根据权利要求1所述的方法，其特征在于，将所述各个分词的词向量与特征库中预存的特征向量进行匹配，包括：

3.根据权利要求1所述的方法，其特征在于，根据匹配到的特征向量确定所述多媒体内容的意图与所述指定意图的匹配度，包括：

4.根据权利要求3所述的方法，其特征在于，所述特征库中存储有预先为每个特征向量设置的指定意图值，所述指定意图值是所述特征向量与标准特征向量的相似度，所述标准特征向量是对基于业务确定的具有指定意图的分词进行编码得到的；或，

5.根据权利要求1-4中任何一项所述的方法，其特征在于，对所述文本信息进行分词处理之后，所述方法还包括：

统计同一分词在所述文本信息中出现的频次；

6.根据权利要求5所述的方法，其特征在于，

所述多媒体内容的推荐排序与所述匹配度正相关；或者

所述多媒体内容的推荐排序与所述匹配度负相关。

7.根据权利要求5所述的方法，其特征在于，所述文本信息中包括以下信息中的至少一种：所述多媒体内容的原始文本信息、所述多媒体内容的音频信息转换得到的文本信息，从所述多媒体内容的图像中提取的文本信息。

8.一种多媒体内容推荐装置，其特征在于，所述方法包括：

9.一种计算设备，其特征在于，包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行根据权利要求1-7中任何一项所述的方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行根据权利要求1-7中任何一项所述的方法。