CN113627598B

CN113627598B - 一种用于加速推荐的孪生自编码器神经网络算法及系统

Info

Publication number: CN113627598B
Application number: CN202110936911.5A
Authority: CN
Inventors: 危枫; 陈蜀宇; 胡飞; 李军; 杨文武; 赵进
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2021-08-16
Filing date: 2021-08-16
Publication date: 2022-06-07
Anticipated expiration: 2041-08-16
Also published as: CN113627598A

Abstract

本发明涉及人工智能技术领域，具体涉及一种用于加速推荐的孪生自编码器神经网络算法及系统；该神经网络架构以孪生神经网络为主体，两个权重共享的单元是自编码器，从而实现了神经网络联合学习用户和商品表示。本发明对现有推荐系统友好，不需要重新训练整个模型，在推荐系统处理基于相似度搜索的推荐任务时，相比于常见的推荐方法速度上更快，所需空间更少；相比常见的离散推荐方法推荐更准确。

Description

一种用于加速推荐的孪生自编码器神经网络算法及系统

技术领域

本发明涉及人工智能技术领域，尤其涉及一种用于加速推荐的孪生自编码器神经网络算法及系统。

背景技术

随着计算机科学技术的发展，在线商品和服务的种类和数量急剧增加，用户发现感兴趣的商品变得日益困难。推荐系统通过预先匹配用户和商品节省了用户发现商品的时间和精力，提高了在线商品服务平台效率。它被公认为解决用户信息过载问题的有效方法，被大量网上商城、音视频网站使用。基于矩阵分解的协同过滤是推荐系统中的一类重要方法，它将用户对商品的评分矩阵分解为用户和商品的低维隐因子空间，然后用户对商品的偏好通过用户和商品的向量内积表示，对所有内积结果进行排序得到推荐列表。

由于用户和商品的数量巨大，用实值来表示用户和商品占用大量磁盘、内存空间，且基于实值的推荐速度受限。

发明内容

本发明的目的在于提供一种用于加速推荐的孪生自编码器神经网络算法及系统，旨在解决现有技术中由于用户和商品的数量巨大，用实值来表示用户和商品占用大量磁盘、内存空间，且基于实值的推荐速度受限的技术问题。

为实现上述目的，本发明提供了一种用于加速推荐的孪生自编码器神经网络算法，包括如下步骤：

获取基础推荐系统，将用户和商品映射到低维隐因子空间；

预训练孪生自编码器神经网络算法，获取用于离散推荐的用户低维二值表示和商品低维二值表示；

将编码器集成到现有推荐系统，提高推荐速度。

其中，在获取基础推荐系统，将用户和商品映射到低维隐因子空间的步骤中：

将用户和商品映射到低维隐因子空间后，用户对商品的偏好，使用两者的内积表示，用户和商品因子之间的高相似度将引起推荐，通过学习用户向量矩阵和商品向量矩阵，获取用户表示矩阵和商品表示矩阵。

其中，在预训练孪生自编码器神经网络算法，获取用于离散推荐的用户低维二值表示和商品低维二值表示的步骤中：

孪生神经网络包括用户表示自编码器和商品表示自编码器，自编码器用于实现从原始高维实值向量到低维二值向量的变换。

自编码器的目标函数包括重构项、正则项和评分误差项。

其中，在将编码器集成到基础推荐系统，提高推荐速度的步骤中：

孪生神经网络训练完成后，将孪生自编码器神经网络算法分别插入到推荐系统的用户表示和商品表示后面，并修改推荐的函数使用基于海明距离的相似度函数。

本发明还提供一种采用上述所述的用于加速推荐的孪生自编码器神经网络算法的推荐系统，所述推荐系统包括采集模块、编码模块和修改模块，所述采集模块与所述编码模块网络连接，所述采集模块用于获取基础推荐系统的用户和商品数据，所述编码模块根据用户和商品数据进行预训练，获得用户表示自编码器和商品表示自编码器，所述修改模块与所述编码模块网络连接，所述修改模块将用户表示自编码器和商品表示自编码器集成到基础推荐系统。

本发明的一种用于加速推荐的孪生自编码器神经网络算法及系统，该神经网络架构以孪生神经网络为主体，两个权重共享的单元是自编码器，从而实现了神经网络联合学习用户和商品表示。本发明对现有推荐系统友好，不需要重新训练整个模型，在推荐系统处理基于相似度搜索的推荐任务时，相比于常见的推荐方法速度上更快，所需空间更少；相比常见的离散推荐方法推荐更准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的孪生自编码器网络结构示意图。

图2是本发明提供的应用离散编码器提高推荐效率步骤图。

图3是本发明提供的一种用于加速推荐的孪生自编码器神经网络算法的步骤流程图。

图4是本发明和其他方法对比实验结果。

图5是本发明和基础推荐系统时间使用对比结果。

图6是本发明和基础推荐系统空间使用对比结果。

具体实施方式

请参阅图1至图3，本发明提供一种用于加速推荐的孪生自编码器神经网络算法，包括如下步骤：

S1：获取基础推荐系统，将用户和商品映射到低维隐因子空间；

S2：预训练孪生自编码器神经网络算法，获取用于离散推荐的用户低维二值表示和商品低维二值表示；

S3：将编码器集成到现有推荐系统，提高推荐速度。

其中，在步骤S1中，获取基础推荐系统，以基于矩阵分解的协同过滤推荐系统为例，它的核心是将用户和商品映射到低维隐因子空间，然后用户对商品的偏好可以使用两者的内积表示，用户和商品因子之间的高相似度将引起推荐，假设u_i是i个用户向量，v_j是第j个商品向量，用户i对商品j的偏好使用

表示，它的核心是学习用户向量矩阵U＝[u₁,...,u_m]∈R^r×m和商品向量矩阵V＝[v₁,...,v_n]∈R^r×n，学习这两个隐因子矩阵的目标函数是：

S_ij是观察到的评分，它的索引集合为k，可以使用随机梯度下降算法(stochasticgradient descent，简称SGD)或交替最小平方(alternating least squares，简称ALS)优化，获取用户表示矩阵U和商品表示矩阵V。

在步骤S2中，预训练孪生自编码器神经网络算法。孪生自编码器神经网络算法的目的是获取用于离散推荐的用户低维二值表示和商品低维二值表示。本发明使用自编码器实现从原始高维实值向量到低维二值向量的变换。孪生神经网络包括两个自编码器：用户表示自编码器和商品表示自编码器；

自编码器的编码器是原始表示映射到低维隐空间，然后使用赫维赛德函数二值化表示。第i个用户和第j个商品的自编码器变换是：

b_i＝Φ(u_i)＝h(W^T·u_i)

d_j＝Φ(v_j)＝h(W^T·v_j)

h(·)表示赫维赛德：函数。自编码器的解码器将b_i和d_j重构回原始表示，解码器变换是：

这里c是偏置向量，f(·)是双曲正切函数。解码器的变换矩阵W和编码器一致，

克服了编码器梯度截断造成反向传播优化失败问题：训练孪生自编码器神经网络算法时，解码器的梯度更新作用于权重矩阵，从而编码器的权重也可以更新；

孪生自编码器的目标函数包括三项：重构项、正则项和评分误差项；

重构项是自编码器的核心，负责监督从原始向量表示在重构前后保持不变。第i个用户和第j个商品表示的重构项是：

正则项负责降低不同维度间的信息冗余，写作：

评分误差项负责微调重构的隐因子向量，写作：

在步骤S3中，将编码器集成到现有推荐系，目的是应用编码器提高推荐速度包括两个子步骤：

其一，将训练好的孪生神经网络的编码器分别插入到推荐系统的用户表示和商品表示后面；

其二修改推荐的函数使用基于海明距离的相似度函数：

请参阅图4至图6，本发明还提供一种采用上述所述的用于加速推荐的孪生自编码器神经网络算法的推荐系统，所述推荐系统包括采集模块、编码模块和修改模块，所述采集模块与所述编码模块网络连接，所述采集模块用于获取基础推荐系统的用户和商品数据，所述编码模块根据用户和商品数据进行预训练，获得用户表示自编码器和商品表示自编码器，所述修改模块与所述编码模块网络连接，所述修改模块将用户表示自编码器和商品表示自编码器集成到基础推荐系统。

在本实施方式中，本系统与基准推荐系统MF(matrix factorization)和代表性的离散推荐算法BCCF(Learning Binary Codes for Collaborative Filtering)、DCF(Discrete Collaborative Filtering)作对比，实验使用公开数据集Yelp。从两方面对比不同的方法和系统：推荐准确度和推荐效率；

推荐准确度使用NDCG作评价指标，实验中NDCG中的K值设置为{4,8,12,16,20}，以下为数据集的属性和四种方法的实验结果，其中SAE代表本发明提出的孪生自编码器(Siamese Autoencoder，简称SAE)，对比结果参阅图4，由实验结果可知，本发明提出的孪生自编码器神经网络算法超出同类型的离散推荐算法BCCF和基准推荐系统MF的推荐性能十分接近。这说明本发明在离散推荐中具有优势。推荐效率从时间效率和空间效率展开对比，对比的对象是基础推荐系统(因离散推荐算法具有相同的时间效率和空间效率，因此未列入对比)。时间效率实验是为目标用户从1000个商品中检索最近的5个返回，记录原始推荐系统和本发明耗费时间；空间效率实验是计算原始表示和不同离散表示占用的空间对比，实验结果请参阅图5和图6；从实验结果可知，本发明提出的方法相对基础推荐系统极大降低空间使用，推荐速度也极大提高。这说明本发明在推荐的时间效率和空间效率上具有优势；

综上，本发明方法在提高推荐系统的时间和空间效率上有一定优势，且可实现接近原始推荐系统的推荐精确度。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种用于加速推荐的孪生自编码器神经网络算法，其特征在于，包括如下步骤：

获取基础推荐系统，将用户和商品映射到低维隐因子空间；

预训练孪生自编码器神经网络算法，获取用于离散推荐的用户低维二值表示和商品低维二值表示，孪生神经网络包括用户表示自编码器和商品表示自编码器，自编码器用于实现从原始高维实值向量到低维二值向量的变换，自编码器的编码器是原始表示映射到低维隐空间，然后使用赫维赛德函数二值化表示；第i个用户和第j个商品的自编码器变换是：

b_i＝Φ(u_i)＝h(W^T·u_i)

d_j＝Φ(v_j)＝h(W^T，v_j)

u_i是第i个用户向量，v_j是第j个商品向量，W是变化矩阵，h(·)表示赫维赛德函数，自编码器的解码器将b_i和d_j重构回原始表示，解码器变换是：

c是偏置向量，f(·)是双曲正切函数，解码器的变换矩阵W和编码器一致；

自编码器的目标函数包括重构项、正则项和评分误差项，重构项是自编码器的核心，负责监督从原始向量表示在重构前后保持不变，第i个用户和第j个商品表示的重构项是：

正则项负责降低不同维度间的信息冗余，写作：

评分误差项负责微调重构的隐因子向量，写作：

α为重构项权重，β为正则化项权重，γ为评分误差平方项权重；

将编码器集成到现有推荐系统，提高推荐速度。

2.如权利要求1所述的一种用于加速推荐的孪生自编码器神经网络算法，其特征在于，在获取基础推荐系统，将用户和商品映射到低维隐因子空间的步骤中：

3.如权利要求2所述的一种用于加速推荐的孪生自编码器神经网络算法，其特征在于，在将编码器集成到基础推荐系统，提高推荐速度的步骤中：

4.采用如权利要求3所述的用于加速推荐的孪生自编码器神经网络算法的推荐系统，其特征在于，

所述推荐系统包括采集模块、编码模块和修改模块，所述采集模块与所述编码模块网络连接，所述采集模块用于获取基础推荐系统的用户和商品数据，所述编码模块根据用户和商品数据进行预训练，获得用户表示自编码器和商品表示自编码器，所述修改模块与所述编码模块网络连接，所述修改模块将用户表示自编码器和商品表示自编码器集成到基础推荐系统。