CN112000819A

CN112000819A - 多媒体资源推荐方法、装置、电子设备及存储介质

Info

Publication number: CN112000819A
Application number: CN201910446528.4A
Authority: CN
Inventors: 丁文奎; 李岩
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-05-27
Filing date: 2019-05-27
Publication date: 2020-11-27
Anticipated expiration: 2039-05-27
Also published as: US11343574B2; CN112000819B; US20200288205A1

Abstract

本公开是关于一种多媒体资源推荐方法、装置、电子设备及存储介质，属于机器学习技术领域。所述方法包括：将多媒体资源输入卷积神经网络进行特征提取，获取卷积神经网络的N个卷积层的输出特征；对于每一个卷积层的输出特征，基于待推荐用户的身份标识，获取与卷积层的输出特征匹配的用户兴趣信息，将用户兴趣信息作为卷积核与卷积层的输出特征进行卷积操作，得到第一特征矩阵，基于第一特征矩阵生成用户偏好数据；根据生成的N项用户偏好数据，向待推荐用户进行多媒体资源推荐。本公开实施例形成了用户在不同语义层级上对多媒体资源的喜好，而将不同语义层级上的喜好进行融合，进而基于融合结果进行推荐，能够显著提升推荐性能。

Description

多媒体资源推荐方法、装置、电子设备及存储介质

技术领域

本公开涉及机器学习技术领域，尤其涉及多媒体资源推荐方法、装置、电子设备及存储介质。

背景技术

随着互联网技术的飞速发展，推荐系统作为信息爆炸时代解决信息过载问题的重要手段之一，受到了人们的广泛关注。比如，时下推荐系统已经被成功运用在诸如电子商务、视频网站、广告推荐等众多的领域中。其中，推荐系统向用户推荐的多媒体资源包括但不限于图片或视频等。

众所周知，推荐系统向用户推荐的多媒体资源越符合用户预期，也即越精准，用户的满意度便越高。为此，如何向用户进行多媒体资源推荐，以提升推荐精准度，成为了本领域技术人员亟待解决的一个问题。

发明内容

本公开提供一种多媒体资源推荐方法、装置、电子设备及存储介质，能够提升多媒体资源的推荐精准度。

根据本公开实施例的第一方面，提供一种多媒体资源推荐方法，包括：

将多媒体资源输入卷积神经网络进行特征提取，获取所述卷积神经网络的N个卷积层的输出特征；

对于每一个所述卷积层的输出特征，基于待推荐用户的身份标识，获取与所述卷积层的输出特征匹配的用户兴趣信息，将所述用户兴趣信息作为卷积核与所述卷积层的输出特征进行卷积操作，得到第一特征矩阵，基于所述第一特征矩阵生成用户偏好数据；

根据生成的N项用户偏好数据，向所述待推荐用户进行多媒体资源推荐。

在一种可能的实现方式中，所述方法还包括：

基于所述身份标识，获取与所述卷积层的输出特征匹配的用户注意力信息；

所述基于所述第一特征矩阵生成用户偏好数据，包括：

基于所述用户注意力信息和所述卷积层的输出特征，生成用户注意力权重；

基于所述第一特征矩阵和所述用户注意力权重，生成所述用户偏好数据。

在一种可能的实现方式中，所述基于所述用户注意力信息和所述卷积层的输出特征，生成用户注意力权重，包括：

将所述用户注意力信息作为卷积核与所述卷积层的输出特征进行卷积操作，得到第二特征矩阵；

对所述第二特征矩阵进行归一化处理，得到所述用户注意力权重。

在一种可能的实现方式中，所述基于所述第一特征矩阵和所述用户注意力权重，生成所述用户偏好数据，包括：

将所述第一特征矩阵输入极大池化层进行降维处理；

将经过降维处理的所述第一特征矩阵和所述用户注意力权重进行加权融合处理，得到所述用户偏好数据。

在一种可能的实现方式中，所述根据生成的N项用户偏好数据，向所述待推荐用户进行多媒体资源推荐，包括：

获取目标权重矩阵，所述目标权重矩阵给出了所述N项用户偏好数据各自对应的权重；

基于所述目标权重矩阵，对所述N项用户偏好数据进行加权融合处理；

基于融合后的用户偏好数据向所述待推荐用户进行多媒体资源推荐。

在一种可能的实现方式中，所述基于待推荐用户的身份标识，获取与所述卷积层的输出特征匹配的用户兴趣信息，包括：

将所述身份标识输入第一嵌入层进行第一向量化处理，得到所述用户兴趣信息，所述用户兴趣信息为m*m大小的矩阵，其中，m指代所述卷积层使用的卷积核的宽度。

在一种可能的实现方式中，所述基于所述身份标识，获取与所述卷积层的输出特征匹配的用户注意力信息，包括：

将所述身份标识输入第二嵌入层进行第二向量化处理，得到所述用户注意力信息；

其中，所述用户注意力信息为m*m大小的矩阵，m指代所述卷积层使用的卷积核的宽度，所述第二嵌入层的权重矩阵与所述第一嵌入层的权重矩阵不同。

在一种可能的实现方式中，应用下述公式，对所述第二特征矩阵进行归一化处理：

w_i,s,t＝exp(v_{i,s,t})/∑_s',t'exp(v_{i,s',t'})

其中，w_i,s,t指代用户注意力权重，v_{i,s,t}和v_{i,s',t'}指代所述第二特征矩阵中不同位置上的两个元素，s'和t'的取值均为正整数，用于遍历所述第二特征矩阵中的全部元素。

在一种可能的实现方式中，基于所述目标权重矩阵，应用下述公式，对所述N项用户偏好数据进行加权融合处理：

其中，o_i指代融合后的用户偏好数据，j的取值为1至N，o_ij指代第j个卷积层的输出特征对应的用户偏好数据，r_ij指代所述目标权重矩阵中与o_ij对应的权重，所述目标权重矩阵为(r_i1,r_i2,r_i3,...,r_iL),i指代所述待推荐用户的身份标识。

根据本公开实施例的第二方面，提供一种多媒体资源推荐装置，包括：

特征提取单元，被配置为将多媒体资源输入卷积神经网络进行特征提取，获取所述卷积神经网络的N个卷积层的输出特征；

第一获取单元，被配置为对于每一个所述卷积层的输出特征，基于待推荐用户的身份标识，获取与所述卷积层的输出特征匹配的用户兴趣信息；

处理单元，被配置为将所述用户兴趣信息作为卷积核与所述卷积层的输出特征进行卷积操作，得到第一特征矩阵；

生成单元，被配置为基于所述第一特征矩阵生成用户偏好数据；

推荐单元，被配置为根据生成的N项用户偏好数据，向所述待推荐用户进行多媒体资源推荐。

在一种可能的实现方式中，所述装置还包括：

第二获取单元，被配置为基于所述身份标识，获取与所述卷积层的输出特征匹配的用户注意力信息；

所述生成单元，包括：

第一生成子单元，被配置为基于所述用户注意力信息和所述卷积层的输出特征，生成用户注意力权重；

第二生成子单元，被配置为基于所述第一特征矩阵和所述用户注意力权重，生成所述用户偏好数据。

在一种可能的实现方式中，所述第一生成子单元，被配置为将所述用户注意力信息作为卷积核与所述卷积层的输出特征进行卷积操作，得到第二特征矩阵；对所述第二特征矩阵进行归一化处理，得到所述用户注意力权重。

在一种可能的实现方式中，所述第二生成子单元，还被配置为将所述第一特征矩阵输入极大池化层进行降维处理；将经过降维处理的所述第一特征矩阵和所述用户注意力权重进行加权融合处理，得到所述用户偏好数据。

在一种可能的实现方式中，所述推荐单元，还被配置为获取目标权重矩阵，所述目标权重矩阵给出了所述N项用户偏好数据各自对应的权重；基于所述目标权重矩阵，对所述N项用户偏好数据进行加权融合处理；基于融合后的用户偏好数据向所述待推荐用户进行多媒体资源推荐。

在一种可能的实现方式中，所述第一获取单元，还被配置为将所述身份标识输入第一嵌入层进行第一向量化处理，得到所述用户兴趣信息，所述用户兴趣信息为m*m大小的矩阵，其中，m指代所述卷积层使用的卷积核的宽度。

在一种可能的实现方式中，所述第二获取单元，还被配置为将所述身份标识输入第二嵌入层进行第二向量化处理，得到所述用户注意力信息；其中，所述用户注意力信息为m*m大小的矩阵，m指代所述卷积层使用的卷积核的宽度，所述第二嵌入层的权重矩阵与所述第一嵌入层的权重矩阵不同。

在一种可能的实现方式中，所述第一生成子单元，应用下述公式，对所述第二特征矩阵进行归一化处理：

w_i,s,t＝exp(v_{i,s,t})/∑_s',t'exp(v_{i,s',t'})

在一种可能的实现方式中，所述推荐单元还被配置为基于所述目标权重矩阵，应用下述公式，对所述N项用户偏好数据进行加权融合处理：

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行上述第一方面所述的多媒体资源推荐方法。

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述第一方面所述的多媒体资源推荐方法。

根据本公开实施例的第五方面，提供一种应用程序，当所述应用程序中的指令由电子设备的处理器执行时，使得电子设备能够执行上述第一方面所述的多媒体资源推荐方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

对于一项多媒体数据，本公开实施例在确定是否向用户推荐时，会先将该多媒体资源输入卷积神经网络进行特征提取，并获取该卷积神经网络的至少一个卷积层的输出特征；之后，对于上述各个卷积层的输出特征，会基于待推荐用户的身份标识，获取与该卷积层的输出特征匹配的用户兴趣信息，并将用户兴趣信息作为卷积核与该卷积层的输出特征进行卷积操作，进而基于得到的特征矩阵生成相应的用户偏好数据；最后，根据针对上述各个卷积层输出的用户偏好数据，来确定是否向用户进行推荐，基于以上分析可知，本公开实施例在设计上将用户兴趣信息直接作为卷积核与上述各个卷积层的输出进行卷积，从而形成了用户在不同语义层级上对该多媒体资源的喜好，通过将不同语义层级上的喜好进行融合，进而基于融合结果进行推荐，不但能够避免冷启动问题，而且还可以显著提升推荐性能，推荐精准度较高，所以该种多媒体资源的推荐方式效果较佳。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种多媒体资源推荐方法所涉及的实施环境的示意图。

图2是根据一示例性实施例示出的一种多媒体资源推荐方法的流程图。

图3是根据一示例性实施例示出的一种多媒体资源推荐方法的流程图。

图4是根据一示例性实施例示出的一种卷积神经网络的结构示意图。

图5是根据一示例性实施例示出的一种协同过滤模块的结构示意图。

图6是根据一示例性实施例示出的一种协同过滤神经网络的结构示意图。

图7是根据一示例性实施例示出的一种多媒体资源推荐装置的框图。

图8是根据一示例性实施例示出的一种多媒体资源推荐装置的框图。

图9是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在对本公开实施例进行详细地解释说明之前，先对本公开实施例涉及的一些名词进行解释说明。

用户兴趣信息：其用于反应用户的喜好，而用户的喜好通常可以通过用户的一系列行为表现反应出来，其中，用户的行为表现包括但不限于点击、购买、收藏、订阅、观看、阅读等等。作为一个示例，用户兴趣信息可以表征用户感兴趣的资源类型(比如汽车、体育、健康、旅游、家居、房产等)，本公开实施例对此不进行具体限定。另外，在本公开实施例中，用户兴趣信息以向量形式表现。

用户注意力信息：其源于注意力机制(Attention Mechanism)，用于反映用户的关注焦点或注意力焦点，从数学公式上和代码实现上注意力机制可以理解为加权求和，认为不同局部的重要性不同。另外，在本公开实施例中，用户注意力信息也是以向量形式表现。

其中，注意力机制源于对人类视觉的研究。在认知科学中，由于信息处理的瓶颈，人类会选择性地关注所有信息的一部分，同时忽略其他可见的信息。上述机制通常被称为注意力机制。注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像，获得需要重点关注的目标区域，也即注意力焦点，而后对这一区域投入更多注意力资源，以获取更多需要关注的目标的细节信息，而抑制其他无用信息。

综上，注意力机制主要有两个方面：一是决定需要关注输入的哪部分；二是分配有限的信息处理资源给重要的部分。

其中，深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似，核心目标也是从众多信息中选择出对当前任务更关键的信息。

下面对本公开实施例提供的一种多媒体资源推荐方法涉及的实施环境进行介绍。

参见图1，该实施环境中包括待推荐用户使用的用户终端101和电子设备102。其中，电子设备102的具体形式可以为服务器，用户终端101的类型包括但不限于智能手机、台式电脑、笔记本电脑、平板电脑等，本公开实施例对此不进行具体限定。另外，电子设备102在本文中也可称之为多媒体资源推荐系统。

在一种可能的实现方式中，本公开实施例提供的多媒体资源推荐方法针对于图像/视频，即本公开实施例提供了一种图像/视频的推荐方式，也即，利用图像/视频推荐系统向用户进行图像/视频推荐。

本公开实施例提出了一种卷积神经网络和协同过滤神经网络相结合的机器学习模型，利用该模型来进行多媒体资源推荐。其中，协同过滤神经网络中包括多个协同过滤模块和一个对多个协同过滤模块的输出进行融合的融合模块，一个协同过滤模块与卷积神经网络的一个卷积层的输出对应。换一种表达方式，对于每个协同过滤模块，均以对应卷积层的输出以及待推荐用户的用户ID作为输入。在本公开实施例中，用户ID会通过两个不同的嵌入(embedding)层进行向量化处理，分别生成用户兴趣嵌入以及用户注意力嵌入。

第一、本公开实施例会将用户兴趣嵌入同卷积神经网络中的卷积核对应，即在设计上考虑了上述卷积结构，将用户兴趣嵌入直接作为卷积核与上述卷积神经网络中各个卷积层的输出进行卷积。

第二、本公开实施例还引入了注意力机制，即基于用户注意力嵌入对同一个卷积层的不同区域的输出进行不同加权，通过该种方法对特征进行强调和抑制，即该种方式能够更加智能地挑选强调有用的特征，而抑制无用的特征，在进行源推荐时能够获得更好的推荐效果。

第三、由于各个协同过滤模块分别与不同卷积层的输出对应，因此在经过上述处理后，各个协同过滤模块的输出便对应待推荐用户对多媒体资源在不同语义层级上的喜好。本公开实施例通过融合模块将不同语义层级上的喜好进行融合，从而提升推荐整体性能。

综上所述，本公开实施例能够很好地解决新出现的多媒体资源的冷启动问题。其中，冷启动问题即是当新用户或者新的多媒体资源进入多媒体资源推荐系统时，因缺少相应的用户行为(比如点击、订阅、收藏、购买等)而无法完成推荐，进而导致协同过滤方法失效。以视频为例，对于新上传的视频，相关技术采用的协同过滤方法会因为缺少相应的用户行为而无法完成推荐，而本公开实施例则不存在此类问题，无论新出现的多媒体资源还是之前已经存在的历史多媒体资源，均可采取上述的推荐方式完成推荐。

另外，本公开实施例提供的多媒体资源推荐方法还具有很强的可扩展性，可以与各种卷积神经网络进行结合，比如适用于图像/视频推荐的不同场景。

下面通过以下示例性实施例对本公开实施例提供的多媒体资源推荐方法进行详细地介绍说明。需要说明的是，下述实施例中出现的类似第一、第二、第三、第四等描述，仅是用于区分不同的对象，而不构成任何其他的限定。

图2是根据一示例性实施例示出的一种多媒体资源推荐方法的流程图，如图2所示，该方法用于图1所示的多媒体资源推荐装置中，包括以下步骤。

在步骤201中，将多媒体资源输入卷积神经网络进行特征提取，获取该卷积神经网络的N个卷积层的输出特征。

其中，N的取值为正整数。在一种可能的实现方式中，N的取值为该卷积神经网络中包括的全部卷积层个数。

在步骤202中，对于N个卷积层中每一个卷积层的输出特征，基于待推荐用户的身份标识，获取与该卷积层的输出特征匹配的用户兴趣信息，将用户兴趣信息作为卷积核与该卷积层的输出特征进行卷积操作，得到第一特征矩阵，基于第一特征矩阵生成用户偏好数据。

在步骤203中，根据生成的N项用户偏好数据，向待推荐用户进行多媒体资源推荐。

本公开实施例提供的方法，对于一项多媒体数据，本公开实施例在确定是否向用户推荐时，会先将该多媒体资源输入卷积神经网络进行特征提取，并获取该卷积神经网络的至少一个卷积层的输出特征；之后，对于上述各个卷积层的输出特征，会基于待推荐用户的身份标识，获取与该卷积层的输出特征匹配的用户兴趣信息，并将用户兴趣信息作为卷积核与该卷积层的输出特征进行卷积操作，进而基于得到的特征矩阵生成相应的用户偏好数据；最后，根据针对上述各个卷积层输出的用户偏好数据，来确定是否向用户进行推荐，基于以上分析可知，本公开实施例在设计上将用户兴趣信息直接作为卷积核与上述各个卷积层的输出进行卷积，从而形成了用户在不同语义层级上对该多媒体资源的喜好，通过将不同语义层级上的喜好进行融合，进而基于融合结果进行推荐，不但能够避免冷启动问题，而且还可以显著提升推荐性能，推荐精准度较高，所以该种多媒体资源的推荐方式效果佳。

在一种可能的实现方式中，该方法还包括：

所述基于所述第一特征矩阵生成用户偏好数据，包括：

将所述第一特征矩阵输入极大池化层进行降维处理；

w_i,s,t＝exp(v_{i,s,t})/∑_s',t'exp(v_{i,s',t'})

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

图3是根据一示例性实施例示出的一种多媒体资源推荐方法的流程图，如图3所示，该方法的交互主体为图1中所示的用户终端101和电子设备102，该方法包括以下步骤。

在步骤301中，电子设备将多媒体资源输入卷积神经网络进行特征提取，获取该卷积神经网络的每一个卷积层的输出特征。

以多媒体资源为图像或视频为例，则上述对图片或视频进行特征提取的卷积神经网络包括但不限于：Inception,VGGNet,ResNet等等。其中，Inception属于GoogLeNet的核心结构，用于增加网络深度和宽度，提高深度神经网络性能。

作为一个示例，以采用VGGNet进行特征提取为例，参见图4，VGGNet包括5层共13个卷积层、3层全连接层，其中，5层卷积层之间均使用pooling(池化)层分开，每一个卷积层均使用3*3大小的小卷积核。

在本公开实施例中，针对上述卷积层神经网络的每一个卷积层的输出特征，均会采用协同过滤神经网络中的协同过滤模块进行处理，即一个协同过滤模块针对一个卷积层的输出。其中，单个协同过滤模块的详细处理流程如图5所示，下面结合步骤302至步骤305对单个协同过滤模块的功能进行说明。

单卷积层的协同过滤模块

在步骤302中，对于每一个卷积层的输出特征，电子设备基于待推荐用户的身份标识，获取与该卷积层的输出特征匹配的用户兴趣信息和用户注意力信息。

在本公开实施例中，协同过滤模块的输入为上述卷积神经网络中某一个卷积层的输出和待推荐用户的身份标识，即用户ID。

在一种可能的实现方式中，基于信息安全性的考量以及为了便于电子设备在处理自身业务逻辑时使用相关用户信息，通常会增加用户授权环节。比如，在本公开实施例中，电子设备在通过用户授权后，可以获取用户的身份标识。作为一个示例，针对用户授权，电子设备可向用户终端发送授权页面，而用户终端负责展示该授权页面，其中，该授权页面中通常会设置授权选项，当用户选中该选项时，用户终端确认用户完成授权，会向电子设备进行反馈，进而电子设备获取相关用户信息。

在一种可能的实现方式中中，用户ID会通过两个不同的embedding层进行向量化处理，分别生成用户兴趣信息以及用户注意力信息，其中，用户兴趣信息在本文中也称为用户兴趣嵌入user_interest_embedding，用户注意力信息在本文中也称为用户注意力嵌入user_attention_embedding。

需要说明的第一点是，在本中为了区分上述两个不同的embedding层，分别命名为第一embedding层和第二embedding层。

其中，用户兴趣嵌入user_interest_embedding可表示为：

user_interest_embedding＝((u_i,1,1,u_i,1,2,...,u_i,1,m,),...,(u_i,m,1,u_i,m,2,...,u_i,m,m,))

用户注意力嵌入user_attention_embedding可表示为：

user_attention_embedding＝((a_i,1,1,a_i,1,2,...,a_i,1,m,),...,(a_i,m,1,a_i,m,2,...,a_i,m,m,))

其中，i指代待推荐用户的身份标识，m指代对应的卷积层使用的卷积核的宽度。也即，user_interest_embedding和user_attention_embedding均是大小为m*m的矩阵。

换一种表达方式，基于待推荐用户的身份标识，获取与该卷积层的输出特征匹配的用户兴趣信息和用户注意力信息，包括但不限于采取下述方式实现：将用户ID输入第一embedding层进行第一向量化处理，得到用户兴趣信息，将用户ID输入第二嵌入层进行第二向量化处理，得到用户注意力信息。

需要说明的第二点是，第一embedding层和第二embedding层中均包括一个可训练的权重矩阵。其中，第一embedding层和第二embedding层中包括的权重矩阵不同，即不同embedding层的权重参数是独立的。在训练初始时，这两个embedding层的权重矩阵的权重参数可随机初始化，其中，协同过滤神经网络中的所有embedding层共同基于训练样本进行训练，权重参数的优化过程可参考多层前馈神经网络，通过反向传播将输出误差的梯度传递至网络的每一层，以用于计算梯度并更新权重参数。

在步骤303中，电子设备将用户兴趣信息作为卷积核与该卷积层的输出特征进行卷积操作，得到第一特征矩阵，将第一特征矩阵输入极大池化层进行降维处理。

在本公开实施例中，在得到用户兴趣信息后，会将该用户兴趣信息作为卷积核与相应卷积层的输出进行卷积操作，其中，卷积操作涉及的计算公式如下：

其中，y_i,s,t指代上述卷积操作的卷积结果，该卷积结果在本文中也称之为第一特征矩阵，u_i,k,l指代用户兴趣信息；

x_s+k-1,t+l-1指代该卷积层的输出特征，s和t的取值范围和该卷积层的输出特征的大小相关，假设该卷积层的输出特征是n*n大小的矩阵，用户兴趣信息是m*m的矩阵，则s和t的取值范围均为1～m-n+1，也即上述第一特征矩阵为(m-n+1)*(m-n+1)大小。

接下来，y_i,s,t会通过一个极大池化层进行降维处理，涉及到的计算公式如下：

z_i,s,t＝max_{1≤k≤m，1≤k≤m}y_s+k-1,t+l-1

在步骤304中，电子设备基于用户注意力信息和该卷积层的输出特征，生成用户注意力权重。

在本公开实施例中，基于注意力机制，用户注意力嵌入user_attention_embedding会产生对输出向量z_i,s,t的每一个元素z_{i,s,t}的注意力权重。

在一种可能的实现方式中，上述基于用户注意力信息和该卷积层的输出特征，生成用户注意力权重，包括如下步骤：

3041、将用户注意力信息作为卷积核与该卷积层的输出特征进行卷积操作，得到第二特征矩阵。

其中，上述卷积操作涉及的计算公式如下：

其中，v_i,s,t指代上述卷积操作的卷积结果，该卷积结果在本文中也称之为第二特征矩阵，a_i,k,l指代用户注意力信息；

x_s+k-1,t+l-1同样指代该卷积层的输出，s和t的取值范围与前述一致，其中，上述第二特征矩阵同样为(m-n+1)*(m-n+1)大小。

3042、对第二特征矩阵进行归一化处理，得到用户注意力权重。

在一种可能的实现方式中，应用下述公式，对第二特征矩阵进行归一化处理：

w_i,s,t＝exp(v_{i,s,t})/∑_s',t'exp(v_{i,s',t'})

其中，w_i,s,t指代输出向量z_i,s,t中任意一个位置上的元素对应的用户注意力权重，v_{i,s,t}和v_{i,s',t'}指代v_i,s,t中不同位置上的两个元素，s'和t'的取值均为正整数，用于遍历v_i,s,t中的全部元素，即s'和t'的取值范围也均为1～m-n+1，同样，w_i,s,t也为(m-n+1)*(m-n+1)大小的矩阵。

需要说明的是，用户注意力权重即对应图4中的用户注意力输出。

在步骤305中，电子设备将经过降维处理的第一特征矩阵和用户注意力权重进行加权融合处理，得到针对该卷积层的用户偏好数据。

在本公开实施例中，在得到输出向量z_i,s,t和w_i,s,t后，将二者进行融合，即利用用户注意力权重对输出向量z_i,s,t进行融合，得到针对该卷积层的输出，其中，这一输出表示了待推荐用户对相应卷积层的输出特征的喜好程度，因此这一输出在文本中也称之为针对该卷积层的用户偏好数据，即用户偏好数据实质上为矩阵。

在一种可能的实现方式中，输出向量z_i,s,t和w_i,s,t的融合公式如下：

o_ij＝∑_s,tw_i,s,tz_i,s,t

其中，o_ij指代针对第j个卷积层的用户偏好数据，j的取值为1至N。

需要说明的第一点是，上述步骤302至步骤305描述了单个协同过滤模块作用在卷积神经网络中单个卷积层的输出上，在本公开实施例中，协同过滤模块会作用在卷积神经网络的每一个卷积层的输出上，即用户兴趣嵌入会作为卷积核作用在不同卷积层的输出上，进而得到针对不同卷积层的用户偏好数据，对应于待推荐用户对多媒体资源在不同语义层次上的喜好。即本公开实施例会在不同语义层级上进行协同过滤。

需要说明的第二点是，本公开实施例还引入了用户注意力嵌入，采用用户注意力嵌入对同一个卷积层的不同区域的输出进行融合。

需要说明的第三点是，针对不同的协同过滤模块，还可提取不同的用户兴趣嵌入，即针对每一个卷积层的用户兴趣嵌入可均不一样。换一种表达方式，本公开实施例可以设计多个用户兴趣嵌入来处理卷积神经网络的不同卷积层的输出，即针对同一个用户ID使用不同的embedding层得到不同的用户兴趣嵌入，实现在不同语义层级上分别进行协同过滤。其中，不同的embedding层之间的权重矩阵不同。另外，同一个用户在不同embedding层上的嵌入维度可以不一样，即不同层的用户兴趣嵌入维度可不一致。

多卷积层的协同过滤输出的融合

在步骤306中，电子设备根据针对每一个卷积层的用户偏好数据，向待推荐用户使用的用户终端进行多媒体资源推荐。

参见图6，在得到针对各个卷积层的用户偏好数据后，会通过一个融合模块来进行融合，在一种可能的实现方式中，进行用户偏好数据融合的方式包括但不限于：获取目标权重矩阵，该目标权重矩阵给出了每一项用户偏好数据各自对应的权重；基于该目标权重矩阵，对每一项用户偏好数据进行加权融合处理。

其中，目标权重矩阵的作用即是将针对不同卷积层的输出进行融合，这个权重矩阵是和协同过滤神经网络中的其他参数一起联合学习得到的，在对这个权重矩阵初始化的时候可以采取随机初始化方式，或者，将这个权重矩阵初始化成全部是1的向量，本公开实施例对此不进行具体限定。

作为一个示例，本公开实施例应用下述公式，对各项用户偏好数据进行加权融合处理：

其中，o_i指代融合后的用户偏好数据，r_ij指代目标权重矩阵中与o_ij对应的权重，该目标权重矩阵为(r_i1,r_i2,r_i3,...,r_iN),其作用是对不同卷积层的o_ij进行加权。

作为一个示例，在基于融合后的用户偏好数据向待推荐用户进行多媒体资源推荐时，根据应用场景的不同，后续的处理方式也不同。

假设在训练阶段的训练目标为实数形式的喜好分数，即上述卷积神经网络和协同过滤神经网络组成的模型最后输出的是用户对多媒体资源的预测打分，则融合模块之后可经过全连接层输出该喜好分数，而后电子设备根据得到的实数形式的喜好分数来进行推荐。比如当得到的喜好分数大于预设阈值时，向用户推荐相应的多媒体资源，否则，不进行推荐。

假设在训练阶段的训练目标为0或1，作为一个示例，以点击为例，0可代表未点击，1可代表点击；以收藏为例，0可代表未收藏，1可代表收藏；以购买为例，0可代表未购买，1可代表购买，本公开实施例对此不进行具体限定。针对该种情况，融合模块之后可经过全连接层和softmax层输出0或1，以点击为例，若模型输出1，则表明模型预测用户会点击相应的多媒体资源，则电子设备向用户推荐该多媒体资源。

其中，针对不同的应用场景来说，在训练阶段使用的损失函数通常不同。以基于分数的推荐为例，可以采用平方损失函数来进行模型训练，其中，平方损失函数的表达式为L＝(s_i-t_i)²,其中，s_i指代模型预测的用户打分，t_i指代实际的用户打分。

本公开实施例提供的方法，至少具有以下有益效果：

本公开实施例会将用户兴趣嵌入同卷积神经网络中的卷积核对应，即在设计上考虑了上述卷积结构，将用户兴趣嵌入直接作为卷积核与上述卷积神经网络中各个卷积层的输出进行卷积。换一种表达方式，协同过滤神经网络中的各个协同过滤模块分别与卷积神经网络中不同卷积层的输出对应，而各个协同过滤模块的输出便对应待推荐用户对多媒体资源在不同语义层级上的喜好。之后，通过将不同语义层级上的喜好进行融合，进而基于融合结果进行推荐，不但能够完美解决冷启动问题，而且还可以显著提升推荐性能，该种多媒体资源的推荐方式效果较佳。

另外，本公开实施例还引入了注意力机制，即基于用户注意力嵌入对同一个卷积层的不同区域的输出进行不同加权，通过该种方法对特征进行强调和抑制，即该种方式能够更加智能地挑选强调有用的特征，而抑制无用的特征，在进行多媒体资源推荐时能够获得更好的推荐效果。

综上所述，本公开实施例不但能够很好地解决新出现的多媒体资源的冷启动问题，而且具有良好的推荐性能，该种多媒体资源推荐方式的效果较佳。

针对冷启动问题，以视频为例，对于新上传的视频，相关技术采用的协同过滤方法会因为缺少相应的用户行为而无法完成推荐，而本公开实施例则不存在此类问题，无论新出现的多媒体资源还是之前已经存在的历史多媒体资源，均可采取上述推荐方式完成推荐。另外，本公开实施例提供的推荐方法还具有很强的可扩展性，可以与各种卷积神经网络进行结合，比如适用于图像/视频推荐的不同场景。

图7是根据一示例性实施例示出的一种多媒体资源推荐装置框图。参照图7，该装置包括：特征提取单元701、第一获取单元702、处理单元703、生成单元704以及推荐单元705。

特征提取单元701，被配置为将多媒体资源输入卷积神经网络进行特征提取，获取所述卷积神经网络的N个卷积层的输出特征；

第一获取单元702，被配置为对于每一个所述卷积层的输出特征，基于待推荐用户的身份标识，获取与所述卷积层的输出特征匹配的用户兴趣信息；

处理单元703，被配置为将所述用户兴趣信息作为卷积核与所述卷积层的输出特征进行卷积操作，得到第一特征矩阵；

生成单元704，被配置为基于所述第一特征矩阵生成用户偏好数据；

推荐单元705，被配置为根据生成的N项用户偏好数据，向所述待推荐用户进行多媒体资源推荐。

本公开实施例提供的装置，对于一项多媒体数据，本公开实施例在确定是否向用户推荐时，会先将该多媒体资源输入卷积神经网络进行特征提取，并获取该卷积神经网络的至少一个卷积层的输出特征；之后，对于上述各个卷积层的输出特征，会基于待推荐用户的身份标识，获取与该卷积层的输出特征匹配的用户兴趣信息，并将用户兴趣信息作为卷积核与该卷积层的输出特征进行卷积操作，进而基于得到的特征矩阵生成相应的用户偏好数据；最后，根据针对上述各个卷积层输出的用户偏好数据，来确定是否向用户进行推荐，基于以上分析可知，本公开实施例在设计上将用户兴趣信息直接作为卷积核与上述各个卷积层的输出进行卷积，从而形成了用户在不同语义层级上对该多媒体资源的喜好，通过将不同语义层级上的喜好进行融合，进而基于融合结果进行推荐，不但能够避免冷启动问题，而且还可以显著提升推荐性能，推荐精准度较高，所以该种多媒体资源的推荐方式效果佳。

在一种可能的实现方式中，参见图8，该装置还包括：

第二获取单元706，被配置为基于所述身份标识，获取与所述卷积层的输出特征匹配的用户注意力信息；

生成单元704，包括：

第一生成子单元7041，被配置为基于所述用户注意力信息和所述卷积层的输出特征，生成用户注意力权重；

第二生成子单元7042，被配置为基于所述第一特征矩阵和所述用户注意力权重，生成所述用户偏好数据。

在一种可能的实现方式中，第一生成子单元7041，被配置为将所述用户注意力信息作为卷积核与所述卷积层的输出特征进行卷积操作，得到第二特征矩阵；对所述第二特征矩阵进行归一化处理，得到所述用户注意力权重。

在一种可能的实现方式中，第二生成子单元7042，还被配置为将所述第一特征矩阵输入极大池化层进行降维处理；将经过降维处理的所述第一特征矩阵和所述用户注意力权重进行加权融合处理，得到所述用户偏好数据。

在一种可能的实现方式中，推荐单元705，还被配置为获取目标权重矩阵，所述目标权重矩阵给出了所述N项用户偏好数据各自对应的权重；基于所述目标权重矩阵，对所述N项用户偏好数据进行加权融合处理；基于融合后的用户偏好数据向所述待推荐用户进行多媒体资源推荐。

在一种可能的实现方式中，第一获取单元702，还被配置为将所述身份标识输入第一嵌入层进行第一向量化处理，得到所述用户兴趣信息，所述用户兴趣信息为m*m大小的矩阵，其中，m指代所述卷积层使用的卷积核的宽度。

在一种可能的实现方式中，第二获取单元706，还被配置为将所述身份标识输入第二嵌入层进行第二向量化处理，得到所述用户注意力信息；其中，所述用户注意力信息为m*m大小的矩阵，m指代所述卷积层使用的卷积核的宽度，所述第二嵌入层的权重矩阵与所述第一嵌入层的权重矩阵不同。

在一种可能的实现方式中，第一生成子单元7041，应用下述公式，对所述第二特征矩阵进行归一化处理：

w_i,s,t＝exp(v_{i,s,t})/∑_s',t'exp(v_{i,s',t'})

在一种可能的实现方式中，推荐单元705还被配置为基于所述目标权重矩阵，应用下述公式，对所述N项用户偏好数据进行加权融合处理：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图9是本公开实施例提供的一种电子设备的结构示意图，该设备900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)901和一个或一个以上的存储器902，其中，所述存储器902中存储有N条指令，所述N条指令由所述处理器901加载并执行以实现上述各个方法实施例提供的多媒体资源推荐方法。当然，该设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该设备还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由电子设备中的处理器执行以完成上述实施例中的多媒体资源推荐方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本公开旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种多媒体资源推荐方法，其特征在于，包括：

将多媒体资源输入卷积神经网络进行特征提取，获取所述卷积神经网络的N个卷积层的输出特征,N的取值为正整数；

2.根据权利要求1所述的多媒体资源推荐方法，其特征在于，所述方法还包括：

所述基于所述第一特征矩阵生成用户偏好数据，包括：

3.根据权利要求2所述的多媒体资源推荐方法，其特征在于，所述基于所述用户注意力信息和所述卷积层的输出特征，生成用户注意力权重，包括：

4.根据权利要求2所述的多媒体资源推荐方法，其特征在于，所述基于所述第一特征矩阵和所述用户注意力权重，生成所述用户偏好数据，包括：

将所述第一特征矩阵输入极大池化层进行降维处理；

5.根据权利要求1所述的多媒体资源推荐方法，其特征在于，所述根据生成的N项用户偏好数据，向所述待推荐用户进行多媒体资源推荐，包括：

获取目标权重矩阵，所述目标权重矩阵给出所述N项用户偏好数据各自对应的权重；

6.根据权利要求1所述的多媒体资源推荐方法，其特征在于，所述基于待推荐用户的身份标识，获取与所述卷积层的输出特征匹配的用户兴趣信息，包括：

7.根据权利要求2所述的多媒体资源推荐方法，其特征在于，所述基于所述身份标识，获取与所述卷积层的输出特征匹配的用户注意力信息，包括：

其中，所述用户注意力信息为m*m大小的矩阵，m指代所述卷积层使用的卷积核的宽度，所述第二嵌入层的权重矩阵与第一嵌入层的权重矩阵不同。

8.一种多媒体资源推荐装置，其特征在于，包括：

特征提取单元，被配置为将多媒体资源输入卷积神经网络进行特征提取，获取所述卷积神经网络的N个卷积层的输出特征,N的取值为正整数；

9.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行上述权利要求1至7中任一权利要求所述的多媒体资源推荐方法。

10.一种非临时性计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述权利要求1至7中任一权利要求所述的多媒体资源推荐方法。