CN113590970A

CN113590970A - 一种基于读者偏好的个性化数字图书推荐系统、方法、计算机及存储介质

Info

Publication number: CN113590970A
Application number: CN202110919211.5A
Authority: CN
Inventors: 王代琳; 刘丽娜; 吕云蕾; 刘勋; 赵月; 刘亚秋
Original assignee: Northeast Forestry University
Current assignee: Northeast Forestry University
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2021-11-02
Anticipated expiration: 2041-08-11
Also published as: CN113590970B

Abstract

本发明提出一种基于读者偏好的个性化数字图书推荐系统、方法、计算机及存储介质，属于人工智能推荐技术领域。具体包括，首先，对输入的数据进行处理，将图书文本转换为低维词嵌入向量。其次，将低维词嵌入向量词转化为具有图书语义的特征向量；再其次，根据读者历史浏览的直接行为和间接行为，计算读者兴趣度Id；再其次，将图书语义特征向量与读者兴趣度相融合生成读者偏好向量；再其次，计算候选图书语义特征向量与读者偏好向量之间的相似度量；最后，将相似度量计算结果输入到预测评分模块得到预测评分，输出候选图书的Top‑N作为推荐结果。解决现有技术中存在的数据稀疏性的技术问题，本发明提高了图书推荐的精确度。

Description

一种基于读者偏好的个性化数字图书推荐系统、方法、计算机及存储介质

技术领域

本申请涉及一种图书推荐方法，尤其涉及一种基于读者偏好的个性化数字图书推荐系统、方法、计算机及存储介质，属于人工智能推荐技术领域。

背景技术

互联网的高速发展为用户提供了海量丰富的信息，随着豆瓣读书、京东、亚马逊等图书网站的快速发展和广泛应用，加之近两年国内外全球疫情的蔓延，越来越多的用户选择从网上浏览获取自己想要的图书信息。用户享受从网上获取海量图书信息的同时也造成了信息过载，很难从海量的图书信息中快速获得自己想要的图书，加之用户对自己的图书需求难以表达或表达不明确，造成用户从海量的网络资源中找到符合自己需求的图书变得愈发困难。推荐系统是解决上述问题的关键技术之一，系统通过分析用户动态和静态数据，学习读者兴趣偏好，更加主动、智能地过滤信息，从而向读者推荐他们潜在的需求。推荐系统目前广泛应用于电子商务、电视电影、音乐网站、新闻资讯和广告推送等领域。特别是在电子商务领域，推荐系统扮演着越来越重要的角色。在各类推荐算法中，传统的推荐算法和基于深度模型的算法已被广泛研究，传统的推荐算法只根据图书的书名、作者、关键字进行推荐而忽略了读者浏览过程中的隐形行为，推荐准确度不高；基于神经网络的推荐算法根据读者的图书浏览行为挖掘读者交互序列中隐含的兴趣偏好，但往往忽略了读者对图书真正内容：目录和正文的关注，而这部分往往是作者最关注的部分，也是图书最重要的区别部分，用户难以表达对于图书目录和图书内容的需求，无法通过网站现有的工具和方法获取自己想要的图书。传统的推荐算法和基于深度模型的算法仍然存在数据稀疏和冷启动问题，如何对用户浏览图书的交互信息进行精确分析提高推荐精度和用户满意度，仍旧是个性化推荐服务的研究热点。

因此，提出一种基于读者偏好的个性化数字图书推荐系统和方法，通过对读者历史浏览交互数据的分析，能有效表达读者的兴趣偏好，为读者推荐其感兴趣的图书提供了可靠依据。本发明不仅适用于推荐系统中基于读者浏览行为的隐形偏好挖掘和推荐任务，在其他常见的NLP任务中亦能提供重要的借鉴意义。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

鉴于此，本发明提供了一种基于读者偏好的个性化数字图书推荐系统，包括数据输入模块、编码器模块、语义融合模块、解码器模块和预测评分模块；

所述数据输入模块用于将图书文本转化为低维词嵌入向量；

所述编码器模块包括图书语义编码模块和兴趣度量模块；

所属图书语义编码模块用于将低维词嵌入向量转化为具有图书语义的特征向量；

所述兴趣度量模块用于根据读者历史浏览直接行为和间接行为，计算读者兴趣度Id；

所述语义融合模块用于将图书语义特征向量和读者兴趣度Id融合生成读者偏好向量；

所述解码器模块用于计算候选图书语义特征向量和读者偏好向量的相似度量；

所述预测评分模块用于输出图书的推荐结果。

基于一种基于读者偏好的个性化数字图书推荐系统实现的一种基于读者偏好的个性化数字图书推荐方法，包括以下步骤：

S1对输入的数据进行预处理，将图书文本转化为低维词嵌入向量；

S2将低维词嵌入向量转化为具有图书语义的特征向量；

S3根据读者历史浏览交直接行为和间接行为，计算读者兴趣度Id；

S4将图书语义特征向量与读者兴趣度相融合生成读者偏好向量；

S5计算候选图书特征向量与读者偏好向量之间的相似度量；

S6将相似度量计算结果输入到预测评分模块得到预测评分，输出候选图书的Top-N作为推荐结果。

优选的，步骤S1所述将图书文本转化为低维词嵌入向量的方法具体是，包括以下步骤：

S11使用分词工具进行分词处理，具体是：

将图书页面的标题、摘要、目录三部分的文本内容按照先后顺序提取出来形成训练文本p，每个训练文本p由n个词组成p＝{e₁,e₂,......,e_n}；一次会话中用户点击的图书序列为T＝{p₁,p₂,......,p_m}；

S12将步骤S11所述的分词结果按照One-Hot编码；

S13词嵌入将One-Hot高维稀疏向量转换为低维稠密向量，具体是：

词e_i经过One-hot编码得到v_i，经词嵌入转化为低维词嵌入向量x_i，公式如下：

x_i＝W·v_i

其中，v_i为第i个词的One-hot编码向量，W为词嵌入矩阵，x_i表示第i个词嵌入向量，最终传到下一层的文本低维词嵌入向量表示为：S_emb＝{x₁,x₂,...,x_n}。

优选的，步骤S2所述将低维词嵌入向量词转化为具有图书语义特征向量的方法具体是，

A将低维词嵌入向量转经过BiLSTM模型输出隐态向量；

将图书低维词嵌入向量作为BiLSTM模型的输入，经每个时间步长t都会生成一个隐态向量H_t输出；

BiLSTM模型在t时刻的隐藏状态，包含前向的

和后向的

具体计算如下：

其中，h_t-1为t-1时刻隐层的输出，x_t为当前时刻即t时刻的输入，C_t-1为t-1时刻细胞状态，

为t时刻LSTM的前向输出，

为t时刻LSTM的后向输出，H_t为t时刻前向和后向两个方向的结合；

B经过注意力机制输出图书语义特征向量；

BiLSTM模型的输出为H＝[h₁,h₂,...,h_n]，经由注意力机制的两层Attention编码，H经第一层Self-Attention；

a)计算s_ti

其中，相似度函数选取缩放点积模型，

为缩放比例因子，d_k为词向量的维度，q_t为查询、k_i为键，h_i和h_j分别为第i个词向量和第j个词向量，s_ti为相关系数表示序列内部第i个词和第j个词之间的关联程度；

b)计算α_ti

其中，softmax为激活函数，将值映射到[0,1]区间内，α_ti为第i个注意力权重系数；

c)计算u_i

其中，α_ti为第i个注意力权重系数，h_i为第i个词向量，u_i为第i个向量的第一层Self-Attention输出；

d)第一层Self-Attention提取到的图书特征向量p＝{u₁,u₂,...u_n}作为第二层序列间注意力层的输入，各个图书序列间的注意力权重为：

s(p_t,p_j)＝v^Ttanh(Wp_t+Up_j)

其中，相似度函数选取加性模型，模型中v、W、U是可训练的参数，v∈R^d,W∈R^d×d,U∈R^d×d，p_t和p_j分别为第t个和第j个序列，α_j为第j个序列注意力权重；将各个序列下的注意力融合，最终得到的第j个图书语义特征向量表示为：

其中，α_j为第j个序列的注意力权重，p_j为第j个序列，c_j为第二层Attention输出的第j个图书语义特征向量。

优选的，步骤S3所述计算读者兴趣度Id的具体方法是：

其中，Id表示读者对页面内容感兴趣的程度，a表示读者行为，Direct表示直接行为，Indirect表示间接行为。

优选的，步骤S4所述将图书语义特征向量与读者兴趣度相融合生成读者偏好向量的具体方法是：

v_i＝{c_i,Id_i}

其中，c_i为第i个图书语义特征向量，Id_i量为读者对第i个图书的兴趣度，v_i为读者对第i个图书的偏好向量。

优选的，步骤S5计算候选图书语义特征向量与读者偏好向量之间的相似度量的具体方法是：

Sim(c_i,c_j)＝c_i·(c_j)^T

其中，c_i为第i个图书语义特征向量，c_j为第j个图书语义特征向量,Sim(c_i，c_j)为候选图书语义特征向量与读者偏好向量之间的相似度量；

读者对候选图书的感兴趣程度为读者对候选图书的预评分，考虑图书网页本身的文本语义和读者的浏览兴趣两方面，在计算读者预测评分时需要将两项结合起来，

其中，E_j为读者对候选图书的预评分。

优选的，所述的直接行为具体包括：保存页面、复制页面、打印页面、收藏页面；所述的间接行为具体是阅读时间。

一种计算机，包括存储器和处理器，存储器存储有计算机程序，所述的处理器执行所述计算机程序时实现一种基于读者偏好的个性化数字图书推荐方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现一种基于读者偏好的个性化数字图书推荐方法。

本发明的有益效果如下：本发明通过分析读者历史浏览交互行为，深挖掘读者显式行为和隐式行为，其融入的读者兴趣度量能有效表达读者的兴趣偏好。解决数据稀疏性的问题，从而提高了推荐的准确度。本发明能够学到更加准确的图书特征表达，本发明不仅适用于推荐系统中基于读者浏览行为的隐形偏好挖掘和推荐任务，在其他常见的NLP任务中亦能提供有力参考。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例所述的系统结构示意图；

图2为本发明实施例所述方法流程意图；

图3为本发明实施例所述BiLSTM模型编码结构示意图；

图4为本发明实施例所述注意力机制编码结构示意图；

图5为本发明实施例所述兴趣度趋势示意图；

图6为本发明实施例所述有无注意力机制实现结果对比示意图；

图7为本发明实施例所述Precision精确率实验结果示意图；

图8为本发明实施例所述Recall召回率实验结果示意图。

具体实施方式

为了使本申请实施例中的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例1、参照图1，说明本实施方式，本实施例的一种基于读者偏好的个性化数字图书推荐系统，包括数据输入模块、编码器模块、语义融合模块、解码器模块和预测评分模块；

所述数据输入模块用于将图书文本转化为低维词嵌入向量；

所述编码器模块包括图书语义编码模块和兴趣度量模块；

所属图书语义编码模块用于将低维词向量转化为具有图书语义的特征向量；

所述预测评分模块用于输出图书的推荐结果。

实施例2、参照图2-图8，说明本实施方式，本实施例的一种基于读者偏好的个性化数字图书推荐方法，包括以下步骤：

具体的，S11使用分词工具进行分词处理，具体是：

将图书页面的标题、摘要、目录三部分的文本内容按照先后顺序提取出来形成训练文本p，每个训练文本p由n个词组成p＝{e₁,e₂,......,e_n}；一次会话中读者点击的图书序列为T＝{p₁,p₂,......,p_m}；

S12将步骤S11所述的分词结果按照One-Hot编码；One-Hot独热编码，又称一位有效编码，其原理是用N位状态寄存器编码N个状态，每个状态都有独立的寄存器位，且这些寄存器位中只有一位有效，每个词向量编码只有一个为1，其余全为0，1的位置对应该词在词典的位置。

词e_i经过One-hot编码得到v_i，经词嵌入转化为向量x_i，公式如下：

x_i＝W·v_i

本实施例采用的是Word2vec词向量转换模型，Word2vec词向量转换模型能解决One-Hot Representation的问题，Word2vec通过基于神经网络的语言模型来学习词语出现的概率，可以保留词语的上下文语义信息，Word2vec的输入为One-hot高维稀疏向量，其输出是通过Word2vec训练得到的低维稠密向量。

参照图3BiLSTM模型编码结构示意图，说明本步骤，S2将低维词向量转化为具有图书语义的特征向量，使用BiLSTM模型通过其前向LSTM和后向LSTM分别获取输入序列的上文信息和下文信息，通过两个LSTM来得到时序相反的隐藏层状态，经连接得到一个输出，可捕获文本的长距离依赖和文本语序上下文信息。

A将词低维词向量转经过BiLSTM模型输出隐态向量；

BiLSTM在t时刻的隐藏状态，包含前向的

和后向

的

将图书低维词嵌入向量作为BiLSTM模型的输入，经每个时间步长t都会生成一个隐态向量H_t输出。

BiLSTM模型在t时刻的隐藏状态，包含前向的

和后向的

具体计算如下：

BiLSTM模型能同时考虑文本的上下文信息,前向LSTM和后向LSTM分别获取输入序列的上文信息和下文信息,通过两个LSTM来得到时序相反的隐藏层状态，通过连接得到一个输出，可以更好的捕捉双向的语义依赖，能够有效地提高准确率。

BiLSTM模型虽然能够捕获文本中词之间的长距离依赖关系，并且同时获取上下文双向信息，但是需要根据时间序列计算得出，对于较长距离的相互依赖的特征，要经过若干时间步的信息累积才能将前后联系起来，而距离越远，捕获有效信息的可能性越小。为弥补BiLSTM层的不足本模型使用双层Attention机制，第一层序列内部Self-Attention，能直接计算任意两个词的联系，快速的得到结果，缩短了特征之间长距离的依赖关系，能够增强图书特征更深层次的语义表达。每一个词语对于文本特征的贡献度是不一样的，注意力机制可以对输入的每个部分赋予不同的权重，抽取出更加关键和重要的信息。自注意力机制Self-Attention只关注词本身，学习文本中任意两个词之间的依赖关系并捕捉内部结构信息，能够得到得到文本更深层次语义信息；

参照图4注意力机制编码结构示意图说明本步骤；B经过注意力机制输出图书语义特征向量；

BiLSTM模型层的输出为H＝[h₁,h₂,...,h_n]，经由注意力机制的两层Attention编码。H经第一层Self-Attention；

a)计算s_ti

其中，相似度函数选取缩放点积模型，

为缩放比例因子，d_k为词向量的维度，q_t为查询、k_i为键，h_i和h_j分别为第i个词向量和第j个词向量，s_ti为相关系数表示序列内部第i个词和第j个词之间的关联程度。

b)计算α_ti，使用softmax函数对注意力得分进行数值转换，将得分归一化处理，得到所有权重系数之和为1的概率分布：

其中，softmax为激活函数，将值映射到[0,1]区间内，α_ti为注意力权重系数。

c)计算u_i，根据权重系数对Value进行加权求和：

读者的一次会话中点击图书序列的顺序信息能够很好地反映一段时间内读者兴趣偏好，序列内部BiLSTM模型和注意力层只能捕捉序列内部的文本特征，为了充分捕捉序列间即图书间的关联关系，使用第二层Attention。

s(p_t,p_j)＝v^Ttanh(Wp_t+Up_j)

其中，相似度函数选取加性模型，模型中v、W、U是可训练的参数，v∈R^d,W∈R^d×d,U∈R^d×d，p_t和p_j分别为第t个和第j个序列，α_j为第j个序列注意力权重；将各个序列下的注意力融合最终图书语义特征向量表示：

S3根据读者历史浏览交直接行为和间接行为，计算读者兴趣度Id；正常情况下，读者在浏览网页时的操作行为越多，说明读者对此网页感兴趣程度越高，读者收藏页面、打印页面、在网页阅读时间、拖动滚动条的次数、鼠标点击次数等等。我们用兴趣度Id(Interest-degree)来表示读者对页面内容感兴趣的程度，将读者的行为分为直接行为和间接行为两大类：所述的直接行为具体包括：保存页面、复制页面、打印页面、收藏页面；所述的间接行为具体是阅读时间，同一读者在阅读结构和内容相近的网页时，读者阅读时间越长则阅读网页内容就越多；反之，如果读者阅读时间越短，则阅读网页内容较少。

计算读者兴趣度Id的具体方法是：

其中，Id表示读者对页面内容感兴趣的程度，a表示读者行为，Direct表示直接行为，Indirect表示间接行为；

直接行为的关注度计算：当读者直接行为发生时，即save、copy、print、keep这四种动作任一发生时，表明读者对网页的兴趣度较高，此时读者兴趣度Id＝Db(a)＝1。

参照图5兴趣度趋势示意图说明间接行为的关注度计算

间接行为的关注度计算：假设网页文本的长度为len，则读者阅读时间的范围为[len/600,len/200]，当读者阅读时间在该区间内时，表明读者对该页面感兴趣，能执行正常阅读，否则说明读者对该页面不感兴趣，此时阅读时间很短或很长，不在正常时间范围内。读者阅读片刻后发现不是自己喜欢的内容于是关闭页面或者读者错误点击了不感兴趣的网页而快速关闭页面，此时阅读时间过短；由于读者有事离开导致时间过长，以上两种情况将兴趣IDb＝0。当读者阅读时间在[min,max]区间内时，表明读者对该页面感兴趣，能执行正常阅读，在正常阅读的时间内，读者阅读的时间越长表明兴趣度越高，当阅读时间达到上限一个阈值tv后将兴趣度置为1，在达到阈值之前由于读者的兴趣度是随着阅时间的增大而增大；

当读者间接行为发生时，即阅读时间发生时，表明读者对网页感兴趣，此时读者兴趣度Id＝IDb(a)，其计算方法如下：

其中，max＝len/200，min＝len/600，当时间t∈[min，max]在正常范围时，执行函数f(t)，当时间t<min或t>max时，此时读者不在正常的阅读时间范围内，将兴趣度置为0；

其中tv的值由实验得出，采用分段函数和tanh函数来拟合Idb(a)，前面用a来表示读者的行为，当读者执行间接行为时，其行为只与时间t有关，所以可将Idb(a)用Idb(t)来代替，Idb(t)表示为：

读者阅读时间的范围[min,max]表示为[len/600,len/200]，根据多次实验结果得出min＝2.3，max＝6.5，阈值tv＝5.3。上式具体表示为：

在x∈[0,3]段，有y∈[0,1)，将读者的兴趣度映射到该段，随着时间的增加读者的兴趣度单调递增，能很好地反映读者的阅读时间与兴趣度的关系，将t∈[2.3,5.3]映射到x∈[0,3]，则有tanh(t-2.3)。当读者直接行为和间接行为同时发生时，表明读者对网页的兴趣度更高，例如，读者浏览完页面后收藏页面、或保存页面、或复制页面、或打印页面，这四种情况任一发生时，此时读者兴趣度Id＝Db(a)+IDb(a)＝1+IDb(a)。

v_i＝{c_i,Id_i}

S5计算候选图书语义特征向量与读者偏好向量之间的相似度量；

Sim(c_i,c_j)＝c_i·(c_j)^T

其中，c_i为第i个图书语义特征向量，c_j为第j个图书语义特征向量,Sim(ci，cj)为候选图书语义特征向量与读者偏好向量之间的相似度量；

读者对候选网页的感兴趣程度，即为读者对候选网页的预评分，考虑图书网页本身的文本语义和读者的浏览兴趣两方面，在计算读者预测评分时需要将两项结合起来，

其中，E_j为读者对候选图书的预评分。

S6将相似度量计算结果输入到预测评分模块得到预测评分，输出候选图书的Top-N作为推荐结果。将读者的偏好向量遍历所有候选图书语义向量得到读者对所有候选图书的评分，为读者进行推荐时，根据评分值从高到低进行排序，选择Top-N推荐给读者。

本发明的工作原理：本发明综合考虑图书本身的语义特征和读者的浏览行为所表现出的兴趣度，首先根据图书内容提取出图书的文本语义特征，利用BiLSTM模型网络得到两个时序相反的隐藏层状态，捕获文本的长距离依赖和文本语序上下文信息。为了缩短图书特征之间长距离的依赖、增强图书特征更深层次的语义表达，引入双层Attention机制，第一层Self-attention学习序列内部任意两个词之间的依赖关系，捕捉序列内部结构信息，第二层Attention学习读者一次会话中点击图书序列顺序反映出的兴趣偏好，捕获序列之间的关联信息；通过分析读者历史浏览交互行为，深挖掘读者显式行为和隐式行为，使用兴趣函数拟合量化读者兴趣度；将图书的语义特征和读者的兴趣度相结合生成读者偏好向量，通过计算读者偏好向量之间的相似度量来预测读者评分进而完成个性化图书推荐功能。

对本发明进行实现，结果如下：参照图6至图8说明本实验结果。

实验选取豆瓣读书和Amazon两个数据集，豆瓣读书3210条读者浏览记录，Amazon4500条读者浏览记录，选择80％作为训练集，10％作为验证集，10％作为测试集。在两个数据集上进行三组实验。

(1)有无注意力机制对比实验

为了验证注意力机制对本发明的性能影响，本组实验做了有自注意力机制和无自注意力机制的对比，实验选取推荐数目N值为50，实验结果如表1所示：

表1有无自注意力机制对比

在豆瓣读书数据集上，当使用注意力机制时precision@50、Recall@50分别为89和85，当不使用注意力机制时，两项指标分别是86和81，平均下降3.5个百分点。在Amazon数据集上不使用注意力两项指标平均下降4个百分点。通过柱形图能更直观地对比注意力机制对指标性能的影响；

实验结果表明，在相同条件下使用注意力机制来增加每个图书内容的关注度在一定程度上提高了图书特征向量的表征的权重，进而提高了对阅读者偏好向量的贡献，使得本发明能更准确的预测评分。由此，使用注意力机制对模型推荐结果有着较为重要的贡献，注意力机制能够显著提高推荐准确率。

(2)MSE(Mean Squared Error)均方误差评价指标实验

为了验证本发明的有效性，本发明与其他具有代表性的四种模型：传统模型BPR-MF和Item-KNN；基于循环神经网络的模型：GRU-Rec；目前较流行的模型DIN模型在MSE评价指标上进行对比实验。BPR-MF是最广泛使用的矩阵分解方法之一，该方法通过随机梯度下降法来优化一个Pairwise的排序目标函数，以此来解决传统矩阵分解方法无法直接应用于基于会话的推荐任务中。Item-KNN将与读者之前访问过的项目相似的项目推荐给读者，项目和项目之间的相似度通过二者的共现次数来表示。GRU4Rec模型提出了使用会话并行和Mini-batch进行模型参数的学习，并且提出了适用于推荐任务的基于排序的损失函数。DIN是基于注意力的推荐模型，在深度神经网络中加入注意力机制，学习读者历史行为，考虑不同时段读者浏览行为兴趣偏好的权重，读者历史浏览行为表达读者兴趣。本组实验选取推荐数目N值为50，评价指标为MSE，结果如表2MSE性能评价所示。

表2MSE性能评价

表2展示了在两个个数据集上的MSE结果，从表中数据可以看出，本发明在两个数据集上的评分预测效果均优于其他基线模型。BPR-MF模型和Item-KNN模型是两种经典的隐语义模型实现方法，在豆瓣读书数据集上，两个模型的实验效果相对Amazon要好，这是因为与Amazon数据集相比，豆瓣读书数据集的评分矩阵相对比较密集。但是，当数据集的矩阵变的稀疏时，BPR-MF和Item-KNN两种模型的效果会受到一定影响。与BPR-MF和Item-KNN，DIN和Ours模型的表现相对比较稳定，在面对规模庞大的数据集时依然可以取得比较好的预测结果。此外，我们发现BPR-MF模型在所有数据集上的预测误差都比较大，这是因为即使将潜在因子间的每个可能交互全都考虑进来，BPR-MF模型很难学到准确的读者特征向量，因此模型也很难对评分进行准确建模。与其他四种模型相比，本发明除了具有较好的图书文本特征表达，还融合了读者兴趣度量，能够学习读者浏览过程中所表现出的隐式偏好，能够更加准确地构建读者偏好特征向量，为模型的推荐效果做了重要贡献。

(3)Precision精确率和Recall召回率评价指标实验

推荐数量不同可能会对推荐质量产生一定的影响。本组实验模型推荐个数N值分别选取10,20,30,40,50,60,70,80。

由图7(a)可知，本发明与其他四种模型在豆瓣读书数据集上Precision的趋势几乎一致。随着N值从10增加到50，Precision的值呈上升趋势，当N值为50时，Precision值达到最大，之后随之N值得增加Precision有所下降，直到最后趋于平稳。传统模型BPR-MF和Item-KNN的Precision值相对较低，基于神经网络模型GRU-Rec稍高之，流行模型DIN和本文模型最高，分析其原因为流行模型DIN和本发明都加入了Attention机制，且两种模型都考虑读者浏览行为，基于读者浏览行为设置兴趣偏好的权重，以上两方面对于Precision值的显著提升起到关键作用。从图中也可看出本文模型略显优势。图7(b)是在Amazon数据集的实验结果，本发明与其他四种模型的Precision趋势同豆瓣读书数据集上非常相似，不同点是Amazon数据集上的Precision值整体降低，分析其原因在于Amazon数据集稀疏度较高，新加入的读者无注册信息，导致读者兴趣计算不准确，因此推荐的效果相对差之。

图8(a)是在豆瓣读书数据集上得到的Recall，总体上与相同数据集图7(a)上的Precision趋势一致，略低之，个别Recall高于其Precision，属于正常范围。本发明与其他四种模型Recall值的高低原因也是因为Attention机制和读者兴趣偏好的权重的影响。图8(b)是在Amazon数据集上的Recall实验结果，整体Recall值低于豆瓣读书。

综上，从三组实验结果来看本发明在MSE、Precision、Recall三项评价指标上均高于其他四种模型，表明本发明能够学到更加准确的图书特征表达，其融入的读者兴趣度量能有效表达读者的兴趣偏好，有助于解决数据稀疏性的问题，从而提高推荐的准确度。本发明不仅适用于推荐系统中基于读者浏览行为的隐形偏好挖掘和推荐任务，在其他常见的NLP任务中亦能提供有力参考。

本发明的计算机装置可以是包括有处理器以及存储器等装置，例如包含中央处理器的单片机等。并且，处理器用于执行存储器中存储的计算机程序时实现上述的基于CREO软件的可修改由关系驱动的推荐数据的推荐方法的步骤。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

计算机可读存储介质实施例

本发明的计算机可读存储介质可以是被计算机装置的处理器所读取的任何形式的存储介质，包括但不限于非易失性存储器、易失性存储器、铁电存储器等，计算机可读存储介质上存储有计算机程序，当计算机装置的处理器读取并执行存储器中所存储的计算机程序时，可以实现上述的基于CREO软件的可修改由关系驱动的建模数据的建模方法的步骤。

所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。