CN113744032B

CN113744032B - 一种图书推荐的方法、相关装置、设备及存储介质

Info

Publication number: CN113744032B
Application number: CN202111073041.XA
Authority: CN
Inventors: 李暾; 李周; 杨旭; 万鑫; 刘剑锋; 尹昊楠; 谢荣; 李娟�; 肖云鹏; 卢星宇; 刘红
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-09-14
Filing date: 2021-09-14
Publication date: 2023-08-22
Anticipated expiration: 2041-09-14
Also published as: CN113744032A

Abstract

本发明属于电商推荐领域，尤其是一种图书推荐的方法、相关装置、设备及存储介质；所述方法包括获取用户信息数据、图书信息数据和用户行为数据并预处理；计算得到用户图书兴趣度、用户活跃度和图书流行度；基于用户图书兴趣度来控制用户节点随机游走，得到用户节点的嵌入向量表示并进行相似度计算，将不同的书城平台中的用户节点对齐；利用对齐后的评分数据进行数据补偿；将用户活跃度和图书流行度作为灰色模型的相关因素，利用灰色模型对补偿后的评分数据矩阵处理，得到用户节点的评分预测序列，并推荐出排名靠前的图书。本发明能挖掘用户和图书间的隐藏信息并有效弥补数据稀疏的问题，将对齐后的用户进行信息融合，能够提供较为精确的推荐数据。

Description

一种图书推荐的方法、相关装置、设备及存储介质

技术领域

本发明属于电商推荐领域，涉及用户行为分析，尤其涉及一种图书推荐的方法、相关装置、设备及存储介质。

背景技术

个性化推荐是当今研究的热点问题，个性化推荐就是根据用户的属性信息和用户历史购买行为信息分析得出该用户的兴趣所在，实现个性化的推荐能够提高电商平台的成交量。在当下电子商务时代，推荐系统已成为一种更为活跃、更现代化的信息过滤方式。随着推荐技术的研究和发展，其应用领域也越来越多。例如，新闻推荐、商务推荐、娱乐推荐、学习推荐、生活推荐、决策支持等。推荐方法的创新性、实用性、实时性、简单性也越来越强。例如，上下文感知推荐、移动应用推荐、从服务推荐到应用推荐。个性化推荐在这些领域都有着极强的研究价值和实际应用。

随着Internet的广泛普及，各类电子商务平台走进人们的视野，用户为了满足购物的服务需求，常在电商网络平台中消费，因此，电商网络环境下的个性化推荐问题成为研究热点。近年来，国内外学者对个性化推荐进行了广泛的研究。现阶段推荐算法主要有以下几类：基于内容的推荐算法；协同过滤推荐算法；基于深度学习的推荐算法；混合推荐。基于内容的推荐算法，这类方法通过抽取物品的特征来学习用户感兴趣的物品的特征，把关联性最大的一组物品推荐给用户。而协同过滤推荐算法是根据与目标用户的兴趣偏好相似的最近邻的偏好来进行推荐。基于深度学习的推荐算法是通过结合底层特征从数据中挖掘特征，形成更密集的高层语义的抽象，从而解决了传统机器学习中手动设计特征的问题。

目前，混合推荐方案是为解决单一推荐算法所存在的问题而提出的，可以将单个或多个推荐算法通过某种方法进行融合以达到取长补短的推荐效果。虽然上述方法具有一定的准确性，但是真实的异质电商书城网络数据通常面临数据匿名化、数据稀疏、数据缺失、数据分布不均、数据异构、数据难以获取等一系列数据问题。

发明内容

基于现有技术存在的问题，本发明提出一种基于用户对齐和灰色理论的个性化推荐模型。本发明设计了一种新的异质信息网络表示学习方法UBC2vec对异质书城平台数据特征空间进行全貌信息表示，达到对全貌信息空间特征维度进行降维、统一化、稠密化表示的效果，能有效的做到异质平台用户对齐。然后基于用户对齐，借助于跨平台相似用户数据的可用价值，实现用户属性信息和用户行为信息补全，从而缓解单一书城平台用户评分数据稀疏性问题。最后针对评分精度的问题，考虑到灰色系统模型处理少数据、贫信息的优势，提出一种基于用户对齐和灰色系统理论的个性化推荐模型。将用户活跃度和图书流行度作为该提取影响用户评分的两个主要因素，然后在用户原始评分数据的基础上，构建了GM(1,3)模型去提高评分精度。

为了实现以上发明的目的，提出了一种图书推荐的方法、相关装置、设备及存储介质，主要通过以下三个实施步骤：

第一步：获取数据源。从目前的书城平台中获取注册用户信息和图书信息等。

第二步：提取相关属性。针对电商书城平台“用户-行为-图书”数据特征空间，提出用户图书兴趣度属性来进一步挖掘更多的信息来表征用户对图书的兴趣偏好。

第三步：建立模型方法。通过对“用户-行为-图书”特征空间进行表示得到多类型向量矩阵R。本发明设计UBC2vec表示方法对电商特征空间进行全貌信息表示，利用本申请定义的用户兴趣度UCH参数来改变用户节点游走过程的跳跃和停留的概率，让其能够捕获更丰富的结构的信息和语义信息，最终得到用户节点的嵌入向量矩阵R，再结合用户节点的属性向量，通过计算向量相似度能够实现跨平台电商书城用户对齐。然后，针对真实电商书城网络用户行为数据存在的数据稀疏、数据缺失等问题，利用跨平台相似用户的评分数据对电商用户的评分数据进行数据补偿，获取更有效的评分数据。最后，根据电商用户原始评分序列，提取影响评分的相关因素：用户活跃度和图书流行度。将用户图书评分进行等时间间隔处理，得到等时间间隔的用户评分序列。然后，基于评分序列进行累加生成变换，利用最小二乘法预估参数，去提高预测得到的评分精度，从而能够完成更为准确的个性化图书推荐。

在本发明的第一方面，本发明提供了一种图书推荐的方法，所述方法包括：

从不同的书城平台中获取用户信息数据、图书信息数据以及用户行为数据，并对数据进行预处理；

从预处理后的数据中计算得到用户数值属性、用户文本属性、用户图书兴趣度、用户活跃度以及图书流行度；

根据所述用户数值属性和所述用户文本属性，计算得到用户节点的属性向量；

基于所述用户图书兴趣度来控制用户节点进行随机游走的跳跃策略和停留策略，从而得到每个用户节点的嵌入向量表示；

对不同用户节点的属性向量和嵌入向量表示进行相似度计算，按照两种向量加权求和的方式选择出相似度最高的用户节点对，并将不同的书城平台中的用户节点对齐；

利用对齐后的其他书城平台的用户节点的评分数据去补偿当前书城平台用户节点的评分数据；

将所述用户活跃度和所述图书流行度作为灰色模型的相关因素，利用所述灰色模型对补偿后的评分数据矩阵进行处理，得到用户节点的评分预测序列，并推荐出排名靠前的图书。

在本发明的第二方面，本发明还提供了一种图书的推荐装置，包括：

获取模块，用于从不同的书城平台中获取用户信息数据、图书信息数据以及用户行为数据；

预处理模块，用于对所述获取模块获取的数据进行预处理；

计算模块，用于从预处理后的数据中计算得到用户数值属性、用户文本属性、用户图书兴趣度、用户活跃度以及图书流行度；

生成模块，用于根据所述用户数值属性和所述用户文本属性，计算得到用户节点的属性向量；以及基于所述用户图书兴趣度来控制用户节点进行随机游走的跳跃策略和停留策略，从而得到每个用户节点的嵌入向量表示；

对齐模块，用于对不同用户节点的属性向量和嵌入向量表示各自进行相似度计算，按照两种向量加权求和的方式选择出相似度最高的用户节点对，并将不同的书城平台中的用户节点对齐；

补偿模块，用于将对齐后的其他书城平台的用户节点的评分数据去补偿当前书城平台用户节点的评分数据；

预测模块，将所述用户活跃度和所述图书流行度作为灰色模型的相关因素，利用所述灰色模型对补偿后的评分数据矩阵进行处理，得到用户节点的评分预测序列；

推荐模块，用于从得到的用户节点的评分预测序列中推荐出排名靠前的图书。

在本发明的第三方面，本发明还提供了一种服务器，包括：存储器、收发器、处理器以及总线系统；其中，所述存储器用于存储程序；所述处理器用于执行所述存储器中的程序，所述处理器用于根据所述程序代码中的指令执行本发明第一方面中所述的方法；所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

在本发明的第四方面，本发明还提供了一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如本发明第一方面所述的方法。

本发明的有益效果：

本发明使用异质网络表示学习来挖掘书城用户和图书之间的隐藏信息，能够对书城平台中的复杂数据特征空间进行全貌信息表示，从而有效挖掘电商用户和图书之间的隐藏信息；本发明通过用户对齐找到不同书城平台中的共同用户，实现用户属性信息和用户行为信息补全，从而缓解单一书城平台用户评分数据稀疏性问题。本发明还将用户对图书评分数据进行等时间间隔处理，得到等时间间隔的用户评分序列；基于评分序列进行累加生成变换，利用最小二乘法预估参数；利用灰色模型能够处理少数据、贫信息的优势，能够达到提高评分精度的效果。

附图说明

图1是本发明实施例中图书推荐的架构框图；

图2是本发明实施例中图书推荐的方法框图；

图3是本发明优选实施例中图书推荐的方法流程图；

图4是本发明实施例中UBC2vec异质网络表示学习模型图；

图5是本申请实施例中图书的推荐装置的一个实施例示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

虽然众多学者对电商书城平台的个性化推荐进行了大量了研究，并取得了相当不错的成果，但目前的个性化推荐仍存在一些挑战：

1.书城用户和图书之间的隐藏信息问题。同一个用户可能在不同的电商平台都有消费行为，而这部分信息是十分重要却难以有效获取的资源，这给精准的个性化推荐造成了不便。

2.数据稀疏问题。稀疏问题的产生是书城用户和图书数量急剧增加导致评分矩阵稀疏。很难根据稀疏评分数据分析用户的喜好，因此，缓解电商数据稀疏的问题显得尤为重要。

3.推荐算法的核心是评分预测，电商行业评分数据稀疏，如何设计有效的评分预测算法来准确的预测用户对未评分图书的准确评分是提高推荐精度的关键。

基于此，本申请提供了一种图书推荐的方法，能够利用人工智能(ArtificialIntelligence，AI)、大数据等技术，有针对性地为每位书城用户进行个性化地推荐，很大程度上提升了推荐效果，下面将详细介绍本申请提供的图书推荐的方法。

应理解，本申请提供的图书推荐的方法适用于不同类型的线上书城，包含但不仅限于当当网、掌阅书城、淘宝网、京东网等。为了在书城平台中实现图书的个性化推荐，本申请提出了一种图书推荐的方法。

本申请涉及的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

服务器可以连接到大数据平台，大数据平台用于提供大数据(big data)。大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临，大数据也吸引了越来越多的关注，大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

大数据平台是基于云技术(cloud technology)实现的，云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

本申请涉及的用户终端可以是智能手机、电子屏、平板电脑、笔记本电脑、掌上电脑、个人电脑、智能电视以及智能手表等，但并不局限于此。用户终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。服务器和用户终端的数量也不做限制。

为了便于介绍，请参阅图1，图1是本发明实施例中图书推荐的架构框图，如图1所示，如图1所示为本发明整体框图，图1中表明本发明的输入是用户信息数据、图书信息数据以及用户行为数据，其中历史评分数据可以从用户信息数据中提取也可以从图书信息数据中提取；这些数据将形成异质电商书城网络结构，一方面，利用UBC2vec方法对不同的用户图书网络(即异质书城网络)挖掘出用户的嵌入向量表示；对这些嵌入向量表示进行相似度计算，从而将异质书城网络的用户对齐，借助对齐网络中对应用户的相关数据，对当前用户进行数据补偿，让补偿后的数据矩阵更有利于预测评分；另一方面，将用户对图书的历史评分数据进行等时间间隔处理，计算得到对应的用户活跃度序列以及图书流行度序列，以适应灰色模型；将用户活跃度序列以及图书流行度序列作为灰色模型的相关序列，将数据补偿后的数据矩阵作为核心序列；经过灰色预测模型后的输出是异质书城用户的个性化热门推荐列表。

基于图1描述的架构，结合上述介绍，下面将对本申请中图书推荐的方法进行具体分析，请参阅图2，本申请实施例中图书推荐的方法的一个实施例包括：

采集用户基本信息、用户历史行为和用户评分信息；将这些信息输入到UBC2vec算法中得到用户节点嵌入向量，并对嵌入向量进行相似度计算；得到异质书城匹配用户对，将不同平台的相似用户数据进行数据补偿，从而更新用户的评分数据；利用模型预测得到排名靠前的推荐列表。

基于图1描述的架构，结合上述介绍，下面将对本申请中图书推荐的方法进行具体介绍，请参阅图3，本申请实施例中图书推荐的方法的一个优选实施例包括：

101、从不同的书城平台中获取用户信息数据、图书信息数据以及用户行为数据，并对数据进行预处理；

在本实施例中，需要从多个书城平台中获取用户信息数据、图书信息数据以及用户行为数据，通常获取的原始数据都是非结构化的，不能直接用户数据分析。通过简单的数据清洗可以使大部分非结构化结构化。例如，删除重复数据、清楚无效节点如部分游客数据等。

其中，所述用户信息数据包括但不限于用户名称、用户性别、用户年龄、用户图书评分信息等；

所述图书信息数据包括但不限于图书类型、图书作者、图书出版社、图书语种、图书页码数、图书出版日期、图书评分等等；

所述用户行为数据包括但不限于用户收藏图书、用户购买图书以及用户浏览图书，异质电商平台用户行为信息可以表示为datas_x＝[x₁,x₂,...,x_n]，datas_y＝[y₁,y₂,...,y_n]；datas_x表示用户图书网络x的用户行为信息，每个用户x可以包含n维用户行为信息；datas_y表示用户图书网络y的用户行为信息，每个用户也可以包含n维用户行为信息。例如采用IsBuy，IsCollect，IsBrowse依次代表用户是否购买，是否收藏，是否浏览，可以分别为其赋值为3，2，1，如果用户购买了图书，则IsBuy＝3，否则IsBuy＝0；如果用户收藏了图书，则IsCollect＝2，否则IsBrowse＝0；如果用户浏览了图书，则IsBrowse＝1，否则IsBrowse＝0。

在获取用户信息数据、图书信息数据以及用户行为数据的同时或之后，还得到了原始的图书评分序列r_i ⁽⁰⁾＝{r_i ⁽⁰⁾(k_l)},l＝1,2,...,n。其中，r_i ⁽⁰⁾表示的用户i的原始评分数据，k_l表示评分的时刻，n表示评分时刻所对应总的时段；每个序列都是某个用户对所有的图书评分的数据。

102、从预处理后的数据中计算得到用户数值属性、用户文本属性、用户图书兴趣度、用户活跃度以及图书流行度；

对于用户属性信息，用户属性信息分为用户数值属性和用户文本属性，可以统一表示为U_attr＝{(at,u_i)|u_i∈U}；at表示用户的属性信息，例如：用户名称、用户性别、用户年龄等；u_i表示异质书城网络节点；U表示异质书城网络节点集合。

考虑到用户属性可以包括用户名，性别，年领等，而有的是数值属性，有的是文本属性，不同的属性信息做相应的处理，最终得到一个用户属性向量，通过计算不同用户属性向量之间的相似度来衡量不同用户相似的程度；本发明对用户属性的定义可根据数据方面的特征对其进行适当修改，在此本发明的实施例中，主要有以下属性。

对于属性特征，我们首先需要将多项用户属性进行向量化处理，而如何将多项用户属性信息进行向量化成为计算用户属性信息相似度的关键。

1.数值属性特征表示

数值类属性信息的处理方式通常是将每个属性看成是一个向量分量，因此用户的属性向量由各个分量L_i组成，分量对应的值为个人资料当中对应项的具体内容l_i，这样就构成了用户属性向量。每个向量分量L_i可以根据所有用户的取值进行one-hot编码，例如电商书城平台用户性别有男，女，保密三种，如果该用户的性别为男性属性向量为L＝(1,0,0)，性别为女性，则属性向量表示为L＝(0,1,0)等。那么用户的n个属性信息最终可以拼成一个用户属性向量。因此，可以计算不同用户属性向量之间的相似度来判断是否是同一用户。

2.文本属性特征表示

文本属性信息通常包括用户名称、地域信息、个性签名等，如何将文本属性信息转换成为向量成为问题的关键。其中，用户名经常作为用户对齐的重要依据，如果两个用户的用户名信息相似，那么这两个用户极有可能是同一用户。对用户名向量化的处理过程，首先需要去掉用户名字符串里面的特殊字符。然后，计算用户名的“n-gram”频数。N值不宜取过大，容易造成向量维数太大。表1展示了3个示例用户名的“2-gram”频数，如表1所示。

表1用户名的2-gram频数示例

计算得到3个用户名之间的频数，然后使用TF-IDF策略计算得到每个特征的权值，最终实现用户名称向量化，对于特征i的计算公式为：

其中，|P|为用户名称的总数。特征“an”在2个用户名中，所以特征“an”的权值为TFidf_an＝log₂(3/2)＝0.585，同理可以得到特征“na”在2个用户名中，所以它的权值为TFidf_na＝log₂(3/2)＝0.585。将特征权值和频数相乘得到每个用户名称的向量表示。例如：

p_ananyx＝(2*0.585,1*0.585,1*0.585,1*0.585,0,0,0)

同理可得：

p_anag＝(1*0.585,1*0.585,0,0,1*1.585,0,0)

p_bnyxy＝(0,0,1*0.585,1*0.585,0,1.585,1.585)

在对数据预处理后，除了需要计算得到用户数值属性和用户文本属性，还需要得到用户图书兴趣度、用户活跃度以及图书流行度。

用户图书兴趣度：

其中，UCH_ui表示用户u对图书i的兴趣度；H(u)表示用户u购买的所有图书的集合，C_type(i)表示和图书i属于相同类别的图书集合；用户图书兴趣度主要衡量用户对一个图书的感兴趣的程度，分子IsBuy，IsCollect，IsBrowse分表代表用户是否购买，是否收藏，是否浏览，本实施例中可以分别为其赋值为3，2，1，假设分母W为定值赋值为6。如果消费者仅仅浏览和收藏图书后，没有选择购买，那么用户图书兴趣度的值为0.5，如果消费者浏览并购买了图书而没有收藏，那么用户兴趣度的值为如果消费者浏览、收藏并购买了图书，那么用户兴趣度的值为1。

用户活跃度(User Activity)：

其中，UA_ui(t)表示用户u对图书i在时刻t的用户活跃度。score_uj(t)表示用户u对图书j的评分，t表示评分时间，H(u)表示用户u购买的所有图书的集合；type(·)是一个映射函数，将具体的图书映射成具体的类别，C_type(i)表示和图书i相同类别的图书集合。

图书流行度(Item Popularity)：

其中，IP_i(t)表示图书在时间t的图书流行度。score_ui(t)表示用户u对图书i在时间t的评分，U(i)表示对图书i有过评分的用户集合，|U(i)|表示对图书i有过评分的用户集合的个数。

103、根据所述用户数值属性和所述用户文本属性，计算得到用户节点的属性向量；

如果用户有n个数值属性，则其数值属性向量可以表示为：

其中，表示书城平台中用户u^x的属性向量表示，L_i表示对应第i个属性所表示的向量分量，i∈{1,2,…,n},n表示分量维度。或者将其属性向量扩展为：

扩展后的属性向量，每一个分量的取值只能是0或1，并且十分稀疏，因此本申请中可以按照余弦相似度，来表示两个向量的接近程度。如果两个用户u_i和u_j的扩展属性向量分别为和用表示他们的属性相似度，则：

得到用户名的特征向量之后，可以计算得到3个用户名字符串之间的相似度如表2所示，从计算结果可以得到用户名anag和ananyx的相似度比ananyx和bnyxy的相似度要高，也符合现实世界中的直观感受。因此，anag和ananyx更有可能在现实世界中是同一个用户，说明了结合“n-gram”策略和TF-IDF计算特征权重策略的方法的有效性和合理性。

表2用户名字符串相似度实例

根据用户的多维数值属性和文本属性各自的相似度来确定出用户总体的属性相似度，将这些相似度分别进行排序，在数值属性和文本属性相似度均较高的情况下，得到K个相似用户，可以对这些相似用户进行对齐。

104、基于所述用户图书兴趣度来控制用户节点进行随机游走的跳跃策略和停留策略，从而得到每个用户节点的嵌入向量表示；

如何对融合后的异质信息网络中的节点或者边进行有效的表示学习是一个困难且有挑战的问题。为了有效的学习到节点的向量表示，通常使用随机游走从网络结构中采样节点，从而保留节点的距离信息。现有的处理异质网络信息的表示学习方法依赖于元路径(meta-paths)来指导随机游走，然而使用这些预先定义好的元路径需要领域专家的先验知识进行最优元路径的选择，或者需要扩展计算来组合所有小于预定义长度的元路径，基于元路径进行随机游走获取节点序列的方法。如果元路径选择的好，节点的嵌入表示会有很好的效果，如果元路径选择的不恰当，效果就会很差。

为了避免上述的缺陷，本发明受到异质网络表示学习JUST模型的启发，设计了新的异质信息网络表示学习方法UBC2vec，该方法通过融合用户图书兴趣度来控制随机游走的跳跃策略和停留策略，根据用户行为数据，可以计算得到用户对每个图片的兴趣程度。不仅能够很好的平衡同质边和异质边，还能够平衡不同类型的节点的分布。

图4给出了本发明实施例中UBC2vec异质网络表示学习模型图，从图4中可以看出，u表示用户，b表示图书，t表示图书类型，a表示图书的作者，表示图书平台x中的第2个用户，这里的2表示用户序号，表示x图书平台(对应用户图书网络X)和y图书平台(对应用户图书网络Y)都有的第2个图书，这里的2表示图书序号，t₁表示图书的类型，具体的类型如科幻类、少儿类等。a₂表示图书的作者，其余参数依次类推。节点化书城网络中的用户、图书、类型、作者信息后对异质网络进行嵌入。然后生成随机游走序列，将这些序列视为文本导入UBC2vec中的skip-gram模型，即可以得到每个节点的向量。

在随机游走的过程中，对于当前节点u，下一个节点的选择策略有两种：分别是跳跃到目标类型q，或者是停留在当前的类型，当跳跃的概率大于停留的概率时，选择跳到目标类型为q的节点，在u的邻居节点中选择类型为q的节点，使用均匀采样选取的一个节点。候选的节点集合定义为：

其中，表示节点u跳到类型为q的节点的集合，u_c表示节点u的邻居节点；E_he表示异质书城网络中异质边的集合，函数φ(·)表示对每个节点映射到特定的节点类型的映射函数。当跳跃的概率小于停留的概率时，在u的邻居节点中选取以同质边连接的点，使用均匀采样从中选取一个节点，候选节点的集合定义为：

V_stay(u)＝{u_c|(u,u_c)∈E_ho∨(u_c,u)∈E_ho}

其中，V_stay(u)表示下一跳选和u相同的类型节点的集合，E_ho表示异质电商书城网络中同质边的集合，u表示异质信息网络中的节点。

选择停留策略的概率定义如下，跳跃策略的概率与之相反：

其中，Q表示异质信息网络的节点类型集合，UCH表示用户商品兴趣度，表示初始化的随机游走集合，α是初始化的停留概率，l代表在这次随机游走过程中连续选择和u_i节点类型一致的节点的次数，通过调节α可以避免随机游走的过程中，在同一类型节点类型停留过长的时间，还可以平衡随机游走路径中同质边和异质边的数量。选取下一跳的目标类型为q的节点集合可以定义为：

其中，Q_jump(u)表示选取下一跳的目标类型节点为q的集合，Q_hist表示长度为m的队列，用来存储随机游走中前m次访问的节点的类型，通过调节m的大小可以平衡节点在不同类型中的分布。对于融合后的异质书城网络中的任意节点，我们使用新的随机游走策略，能够得到每个节点近邻序列，然后进一步嵌入表示，可以得到每个用户节点的包含结构信息和语义信息的嵌入向量表示。

在本发明提出的UBC2vec算法中，本发明的目标就是学习电商书城网络下每个用户节点u^x∈U的嵌入向量表示f(u^x)，整个学习过程可以看作是skip-gram训练，优化目标函数如下：

其中，u^x表示异质书城网络中的用户节点；Ux表示异质书城网络中的用户节点集合；Neighbor_r(u^x)表示用户节点u^x的近邻用户节点集合；f(u^x)表示用户节点u^x的嵌入向量表示；在给定每个用户节点的条件下，令其近邻顶点出现的概率最大，其近邻顶点出现的概率与近邻节点集合中的其余顶点无关，令s表示用户节点u_i的近邻用户节点，其中：

本发明实施例中选择异步梯度下降函数SGD作为网络训练的优化器，训练后每个节点编码中为l元素的权重序列作为节点的嵌入向量，即：

其中，为用户节点的嵌入向量，为用户节点的权重序列，UBC2vec的游走方式不同于DeepWalk的随机游走，将设计一种用户书城网络的搜索偏置应用于随机游走中，最后通过skip-gram的学习方法得到购书用户的目标向量。

105、对不同用户节点的属性向量和嵌入向量表示各自进行相似度计算，按照两种向量加权求和的方式选择出相似度最高的用户节点对，并将不同的书城平台中的用户节点对齐；

106、利用对齐后的其他书城平台的用户节点的评分数据去补偿当前书城平台用户节点的评分数据；

在本实施例中，经过相似度计算之后，在数值属性和文本属性相似度均较高的情况下，得到K个相似用户。本实施例利用这些相似用户的评分数据矩阵去补偿目标用户较为稀疏的评分矩阵，达到评分数据补偿的效果，进而对电商用户进行较为精准的个性化推荐。

例如，确定出书城平台X中的用户x与书城平台Y中的用户y属于对齐用户，即用户x与用户y极有可能是现实中的同一用户，假如用户y的数据较为稀疏，因此可以将用户x的数据补偿到用户y中。

107、将所述用户活跃度和所述图书流行度作为灰色模型的相关因素，利用所述灰色模型对补偿后的评分数据矩阵进行处理，得到用户节点的评分预测序列，并推荐出排名靠前的图书。

基于扩展GM(1,3)模型的评分预测算法的主要构建步骤如下：

1071、根据原始的图书评分序列计算出用户活跃度UA_ui(t)和图书流行度IP_i(t)。将计算出的用户活跃度UA_ui(t)和图书流行度IP_i(t)变形得到：

其中，表示用户u对图书i的原始用户活跃度序列，表示的原始用户活跃度序列中的第n项。

同理，IP_i ⁽⁰⁾表示图书i的原始项目流行度序列，例如IP_i ⁽⁰⁾(k_k)表示的是原始图书流行度序列中的第k项。将计算得到的用户活跃度序列和图书流行度序列作为GM(1,3)模型的相关因素，进一步分析该因素对用户评分的影响。

1072、将原始评分序列进行等时间间隔处理。原始评分序列通常是非等时间间距的序列，而灰色预测模型是基于等时间间距的序列进行分析预测，因此，需要将原始数据进行预处理，设Δk为序列的平均时间间隔，计算公式如下：

经过调整后评分序列为r_i ⁽⁰⁾＝{r_i ⁽⁰⁾(k₁),r_i ⁽⁰⁾(k₂),...,r_i ⁽⁰⁾(k_n)}，其中Δk＝k_i-k_i-1。为了更真实的还原真实电商用户的评分，使用时间衰减函数进一步优化用户评分数据，时间衰减函数公式为：

时间衰减函数f(|t_n-k_n|)的计算公式如下：

其中，δ为衰减因子。

1073、累加生成处理。将经过等时间间隔和时间衰减函数处理的评分序列数据和相关因素序列做一次累加生成，得到1-AGO序列。计算方式如下：

经过计算得到一次累加生成过后的评分序列和相关因素序列数据如下：

IP_i ⁽¹⁾＝{IP_i ⁽¹⁾(k₁),IP_i ⁽¹⁾(k₂),...,IP_i ⁽¹⁾(k_k)}

1074、生成的近邻均值序列其计算方式如下：

1075、构建GM(1,3)模型。构建的GM(1,3)模型的差分形式如下：

其中，γ为模型的发展系数，λ₁和λ₂是模型驱动系数，Γ＝[γ,λ₁,λ₂]^T称为模型的参数列，为的紧邻均值生成序列。

1076、参数求解。根据近邻均值序列可以构建模型的矩阵方程为Y＝B×Γ。其中，Γ＝[γ,λ₁,λ₂]^T为模型的参数列，Y和B的表达式为：

由最小二乘参数估计可得参数列表为：

Γ＝[γ,λ₁,λ₂]^T＝(B^TB)^-1B^TY

1077、求解微分方程。根据前面得到的一次累加序列以及邻值生成序列，得到GM(1,3)的白化方程：

1078、令k＝k+1得到的评分预测公式为：

其中，此时预测的结果为评分的累计值。最后，进行累减操作还原用户评分的预测值。评分预测公式为：

从上述评分预测流程可以看出，在已知用户活跃度、图书流行度的情况下，可以预测用户对图书的评分。特别地，在构建评分预测算法中，步骤1066主要求解灰色预测模型的参数列，在参数列求解的过程中，如果矩阵的逆不存在，无法构建模型，这种情况下把预测的评分设为同类型图书评分的均值。

更进一步地，本申请实施例中，提供了图书的推荐装置，通过上述装置，可以为用户提供图书的信息，便于客户更高效地找寻待推荐图书。

下面对本申请中的图书的推荐装置进行详细描述，请参阅图5，图5为本申请实施例中图书的推荐装置的一个实施例示意图，图书的推荐装置500包括：

501、获取模块，用于从不同的书城平台中获取用户信息数据、图书信息数据以及用户行为数据；

502、预处理模块，用于对所述获取模块获取的数据进行预处理；

503、计算模块，用于从预处理后的数据中计算得到用户数值属性、用户文本属性、用户图书兴趣度、用户活跃度以及图书流行度；

504、生成模块，用于根据所述用户数值属性和所述用户文本属性，计算得到用户节点的属性向量；以及基于所述用户图书兴趣度来控制用户节点进行随机游走的跳跃策略和停留策略，从而得到每个用户节点的嵌入向量表示；

505、对齐模块，用于对不同用户节点的属性向量和嵌入向量表示各自进行相似度计算，按照两种向量加权求和的方式选择出相似度最高的用户节点对，并将不同的书城平台中的用户节点对齐；

506、补偿模块，用于将对齐后的其他书城平台的用户节点的评分数据去补偿当前书城平台用户节点的评分数据；

507、预测模块，将所述用户活跃度和所述图书流行度作为灰色模型的相关因素，利用所述灰色模型对补偿后的评分数据矩阵进行处理，得到用户节点的评分预测序列；

508、推荐模块，用于从得到的用户节点的评分预测序列中推荐出排名靠前的图书。

本申请涉及的服务器可以是边缘计算服务器，或者是独立的物理服务器，或者是多个物理服务器构成的服务器集群，或者是多个物理服务器构成的分布式系统，或者是云服务器，又或者是级联的边缘计算服务器与云服务器，此处不做限定。该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)(例如，一个或一个以上处理器)和存储器，一个或一个以上存储应用程序或数据的存储介质(例如一个或一个以上海量存储设备)。其中，存储器和存储介质可以是短暂存储或持久存储。存储在存储介质的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器可以设置为与存储介质通信，在服务器上执行存储介质中的一系列指令操作。

服务器还可以包括一个或一个以上电源，一个或一个以上有线或无线网络接口，一个或一个以上输入输出接口，和/或，一个或一个以上操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如前述各个实施例描述的方法。

本申请实施例中还提供一种包括程序的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例描述的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

在本发明的描述中，需要理解的是，术语“同轴”、“底部”、“一端”、“顶部”、“中部”、“另一端”、“上”、“一侧”、“顶部”、“内”、“外”、“前部”、“中央”、“两端”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明中，除非另有明确的规定和限定，术语“安装”、“设置”、“连接”、“固定”、“旋转”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种图书推荐的方法，其特征在于，所述方法包括：

所述用户图书兴趣度的计算公式表示为：

其中，UCH_ui表示用户u对图书i的兴趣度；H(u)表示用户u购买的所有图书的集合；C_type(i)表示和图书i属于相同类别的图书集合；IsBuy表示用户是否购买的状态值；IsCollect表示用户是否收藏的状态值；IsBrowse表示用户是否浏览的状态值；W表示兴趣度均值参数；

基于所述用户图书兴趣度来控制用户节点进行随机游走的跳跃策略和停留策略，从而得到每个用户节点的嵌入向量表示；即利用用户图书兴趣度分别计算出用户节点跳跃到其他类型的概率和停留在当前类型的概率，当跳跃概率大于停留概率时，确定出用户节点在下一跳的目标类型，从而得到每个用户节点近邻序列；根据所述用户节点近邻序列确定出优化目标函数，利用Skip-Gram模型对所述优化目标函数进行训练，将异步梯度下降函数作为网络训练的优化器，将训练后每个用户节点编码中为l元素的权重序列作为用户节点的嵌入向量，即得到用户节点的嵌入向量表示；其中，用户节点u_i选择停留的概率和选择跳跃的概率依次表示为：

式中，V_stay(u)表示下一跳选择和用户节点u相同类型的用户节点的集合，表示初始化的随机游走集合，表示用户节点u_i选择跳到类型为q的用户节点的集合，u表示异质书城网络中的用户节点；Q表示异质书城网络的节点类型集合，φ(u)表示把节点映射到u节点类型的映射函数；α∈[0,1]是初始化的停留概率，l表示在这次随机游走过程中连续选择和用户节点u类型一致的用户节点的次数；UCH_uc表示用户节点u对图书c的兴趣度；

对不同用户节点的属性向量和嵌入向量表示各自进行相似度计算，按照两种向量加权求和的方式选择出相似度最高的用户节点对，并将不同的书城平台中的用户节点对齐；

将所述用户活跃度和所述图书流行度作为灰色模型的相关因素，利用所述灰色模型对补偿后的评分数据矩阵进行处理，得到用户节点的评分预测序列，并推荐出排名靠前的图书，即从预处理后的数据得到用户节点历史评分数据，根据所述历史评分数据得到用户活跃度序列和图书流行度序列，并将用户活跃度序列和图书流行度序列作为评分序列的相关序列；将用户节点的历史评分序列按照等时间间隔进行划分处理；使用时间衰减函数对等时间间隔的评分序列进行衰减；将经过等时间间隔和时间衰减函数处理的评分序列数据和相关因素序列做一次累加生成；计算得到一次累加生成评分序列数据的近邻均值序列；构建出灰色模型GM(1,3)，利用最小二乘估计得到参数列表；迭代求解出不同时序的评分预测序列，对迭代的评分预测序列进行累减操作，得到用户节点在任意时序的评分预测序列。

2.一种图书的推荐装置，执行权利要求1所述的方法，其特征在于，包括：

预处理模块，用于对所述获取模块获取的数据进行预处理；

3.一种服务器，其特征在于，包括：存储器、收发器、处理器以及总线系统；其中，所述存储器用于存储程序；所述处理器用于执行所述存储器中的程序，所述处理器用于根据所述程序代码中的指令执行权利要求1所述的方法；所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

4.一种计算机可读存储介质，其特征在于，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1所述的方法。