CN109766465A

CN109766465A - 一种基于机器学习的图文融合图书推荐方法

Info

Publication number: CN109766465A
Application number: CN201811606384.6A
Authority: CN
Inventors: 王子豪; 牟书念; 李兴亮; 孙晓燕
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2019-05-17

Abstract

本发明涉及图书馆检索技术领域，具体地说，是一种基于机器学习的图文融合图书推荐方法，包括以下步骤：采集图书相关数据并进行预处理，从网络上采集图书图文数据并进行预处理；提取图书图片特征，利用DCNN和VGG‑16深度卷积神经网络对于ImageNet2012中的126万张图片进行训练，从而得到较为准确的训练权重，利用其提取图片特征，并对其进行降维；提取图书文本特征，使用RNN和Word2Vec框架将文本转化为与图像向量纬度一致的向量，图像特征与文本特征的融合，设计线性集成方法对于图像文本向量进行融合；实现推荐，利用余弦相似度方法对其进行衡量，并计算分类阈值，结合传统基于物品的协同过滤的推荐方法进行推荐。

Description

一种基于机器学习的图文融合图书推荐方法

技术领域

本发明涉及图书馆检索技术领域，具体地说，是一种基于机器学习的图文融合图书推荐方法。

背景技术

现如今计算机网络技术发展越来越广泛传统图书馆模式以及不能满足大众的需求了，使得图书馆在新形势下将软件、硬件各方面都进行了创新改革并迅速发展起来。信息资源作为人们生活中不可缺少的重要资源，呈现出了前所未有的增长，服务机构的增多使得信息方面的获取更加的广泛，人们在知识的需求上更加的多样和急切，人们在知识的获取方式上一直在改变。致使信息资源的增长以及信息利用的困难越来越明显，所以图书馆要提供新的服务方式，也就是个性化服务，只有个性化服务才能在根本上改变图书馆整体的局面。

高校图书馆的个性化服务是针对高校师生在科研以及教学上进行不同方式的一种服务，它具有层次性、特色性以及专业性。高校图书馆服务的对象都是具有一定专业知识的教师、学生或者科研人员，个性化服务的出发点是能够使用户满意，并且主动服务的基本模式。

传统高校图书馆因为是使用馆藏文献来为师生以及科研进行服务的，在查询以及筛选上都费时费力，需要消耗大量的人力。随着网络技术的发展壮大，使得高校图书馆的的使用更加的便捷化、准确化。以网络服务为中心的个性化服务将会成为整个时代发展的必然走向。而且，网络环境下的图书馆不仅在于图书馆里的藏书有多少，更在乎图书馆提供的实质性信息有多少，准确性有多少和用户使用上的满意程度。图书馆个性服务从根本上将自己的服务功能进行了提升。

发明内容

为了解决上述技术问题，为图书馆尤其是学校图书馆提供一种精准的图书推荐方法，本发明披露了一种基于机器学习的图文融合图书推荐方法，其具体技术方案如下：

一种精准的图书推荐方法，包括如下步骤：

步骤一、采集图书相关数据并进行预处理：从网络上采集图书图文数据并进行预处理；

步骤二、提取图书图片特征：利用DCNN和VGG-16深度卷积神经网络对于ImageNet2012中的126万张图片进行训练，从而得到较为准确的训练权重，利用其提取图片特征，并对其进行降维；

步骤三、提取图书文本特征：使用RNN和Word2Vec框架将文本转化为与图像向量纬度一致的向量；

步骤四、图像特征与文本特征的融合：设计线性集成方法对于图像文本向量进行融合；

步骤五、实现推荐：利用余弦相似度方法对其进行衡量，并计算分类阈值，结合传统基于物品的协同过滤的推荐方法进行推荐。

本发明的进一步改进，在步骤一中采用基于requests库和beautifulsoup 库的网络爬虫采集图书的图片和文本数据，并进行过滤，以此作为数据集。

步骤二中，构建DCNN模型：利用深度卷积神经网络(Deep Convolutional NeuralNetwork,DCNN)，随着神经网络的深入，每一层都可以将前一层次的特征进行抽象表示，在图像训练当中，第一层学习到的是“边缘”特征，而第二层就可以对于“形状”特征进行识别与学习，第三层就可以抽象得到“图案”的概念，最后将可以训练得出要识别的“目标”特征。通过神经网络的深度提升，可以有效地做好分类工作，获得更加高级的特征提取与识别能力。以上就是一个五层的神经网络，其可以训练得到抽象程度更高的特征，也能够通过组合而拟合得到更加复杂的函数从而完成难度更高的分类任务。

构建VGG16模型：VGG-16模型可以使得深度卷积神经网络在大规模图像识别中的准确率提升，通过较小(3×3)的卷积滤波器同时增加神经网络的深度来对于其效能进行评估，通过多次实验，发明人发现将深度神经网络提升至16-19层，可以大大提升识别准确率。发明人在对于VGGNet各级网络进行对比总结时认为， LRN层作用并不明显，神经网络深度越高，其效果越好。对于卷积核来说，1×1 和3×3都是可以的，但是卷积核大一些可以对于更大范围的图像特征进行学习。 VGGNet拥有5个卷积段，每段含有2-3个卷积层，在卷积结束之后会连接最大池化层来降低维度。

在本发明中，ImageNet 2012含有126万张训练图片，共分为1000类，该图片数据集是通过网络收集并通过亚马逊机器人来添加标签的。其验证图片集有5万张，一般通过对于验证集进行测试来对其训练效果进行评估。ImageNet 2012 的图像尺寸和清晰度各异，为了让其可以正确地输入到模型当中，发明人对于所有图像都进行统一化采样处理，将其调整为256×256的大小。具体方法为发明人将矩形图像的短边缩小为256像素，然后从中心选取256×256的区域进行分析。发明人还将每一个像素点的RGB值减去训练图像的平均RGB值来中心化，深度卷积神经网络采用预处理后的RGB值进行训练。深度卷积神经网络的输入图像有着固定的大小，其尺寸为222基于深度卷积神经网络的图像向量化表示264× 224，这是由经过缩放后的训练图像裁剪得到的，为了让训练集的数据增加，裁剪图像时经过随机的翻转和颜色转换来增加不同的图像。

VGG-16模型是按照反向传播来进行模型训练的，本发明的参数设置为：每批训练样本数量为256，动量为0.9，通过权重衰减的方式来进行正则化，惩罚系数设置为5e-4，对于前两个全连接层要进行Dropout，其值设置为0.5，初始的学习率设置为1e-2，在准确率趋于稳定时将学习率降低10倍。整个训练一共进行了370k次迭代，学习率下降过3次，发明人的网络在74个周期后就开始收敛。其他参数设置为：Dropout随机舍弃概率为0.5，Momentum动量值为0.9， Lambda权重衰减值为5e-04，Learning Rate学习率为1e-02，Epochs迭代次数为90。

本发明的进一步改进，步骤二中利用主成分分析降维：主成分分析是通过降维的方法来选择几个指标代替所有变量，让这些指标能够较大程度地独立反映出原来所包含的信息，一般把这种降维统计方式叫做主成分分析。主成分分析的核心在于对方差进行计算，对其进行重新组合而找到一组相互独立的新变量对于原来的变量进行替代。1F应当是方差最大的变量，称之为第一主成分，如果其不够表达原有多个变量的信息，那么再依次确定第二、第三主成分等，直到其贡献率满足所需的要求。

本发明的进一步改进，步骤三中，RNN模型构建：发明人采用RNN模型，递归神经网络(Recursive Neural Network,RNN)是较为常见的结合时空的神经网络模型，主要在自然语言处理中进行应用，发明人对其原理和实现方案进行分析。它最大的特点是采用定向循环的方式对于空间结构中有前后关联的输入进行计算。可以把相关的信息映射到语义向量空间当中，将文字转化为向量，语义向量是满足一定约束性质的，如果两句话意思较为相近，那么它们的空间距离也越近，如果两句话的意思差别较大，那么向量距离也会很远。

在Word2Vec的模型当中，有Skip-Gram和CBOW两种模式，前者是通过输入的单词来对于上下文进行预测，后者则是通过前后文来进行输入单词的预测。本次的训练与测试是基于Skip-Gram模式。

首先进行预处理，数据预处理主要包括将文本中的特殊符号去掉，去除频率较低的词，对于文本进行分词从而构建语料库。发明人利用Gensim官方提供的 Text8语料库，定义数据处理函数来完成文本的清理与分词，然后发明人将进行映射表的构建与词典的分析。发明人可以发现，单词总量达到1668万，词典大小为6万左右，发明人将采用这个语料库进行模型的训练。

本发明的进一步改进，步骤四中，图像文本向量的线性融合：采用线性集成的方式对于图像文本向量进行融合，通过这样的计算可以有效地保留原有图像文本的信息，计算过程较为简洁，可以提升融合效率。

设定X为图像向量权重，Y为文本向量权重，A为图像向量矩阵，B为文本向量矩阵，计算公式如下:

K＝XA+YB(X+Y＝1)，

其中，X取0.1，Y取0.9，推荐准确度最高。

本发明的有益效果：本发明通过结合图书中的图片和文本，能更加准确地判断用户的图书需求偏好，从而提高图书推荐的准确率。

附图说明

图1是本发明的流程示意图。

图2是深度卷积神经网络结构图。

图3是VGG深度卷积神经网络配置图。

具体实施方式

为了加深对本发明的理解，下面将结合附图和实施例对本发明做进一步详细描述，该实施例仅用于解释本发明，并不对本发明的保护范围构成限定。

实施例：一种基于机器学习的图文融合图书推荐方法，包括以下步骤：

步骤一、采集图书相关数据并进行预处理：从网络上采集图书图文数据并进行预处理；步骤二、提取图书图片特征：利用DCNN和VGG-16深度卷积神经网络对于ImageNet2012中的126万张图片进行训练，从而得到较为准确的训练权重，利用其提取图片特征，并对其进行降维；步骤三、提取图书文本特征：使用RNN 和Word2Vec框架将文本转化为与图像向量纬度一致的向量；步骤四：图像特征与文本特征的融合：设计线性集成方法对于图像文本向量进行融合；步骤五：实现推荐：利用余弦相似度方法对其进行衡量，并计算分类阈值，结合传统基于物品的协同过滤的推荐方法进行推荐，如图1所示。

上述步骤一中采用基于requests库和beautifulsoup库的网络爬虫采集图书的图片和文本数据，并进行过滤，以此作为数据集；

构建DCNN模型

利用深度卷积神经网络(Deep Convolutional Neural Network,DCNN)，随着神经网络的深入，每一层都可以将前一层次的特征进行抽象表示，在图像训练当中，第一层学习到的是“边缘”特征，而第二层就可以对于“形状”特征进行识别与学习，第三层就可以抽象得到“图案”的概念，最后将可以训练得出要识别的“目标”特征。通过神经网络的深度提升，可以有效地做好分类工作，获得更加高级的特征提取与识别能力。以上就是一个五层的神经网络，其可以训练得到抽象程度更高的特征，也能够通过组合而拟合得到更加复杂的函数从而完成难度更高的分类任务，结构图如图2所示。

VGG16模型的构建

VGG-16模型可以使得深度卷积神经网络在大规模图像识别中的准确率提升，通过较小(3×3)的卷积滤波器同时增加神经网络的深度来对于其效能进行评估，通过多次实验，发现将深度神经网络提升至16-19层，可以大大提升识别准确率。发明人在对于VGGNet各级网络进行对比总结时认为，LRN层作用并不明显，神经网络深度越高，其效果越好。对于卷积核来说，1×1和3×3都是可以的，但是卷积核大一些可以对于更大范围的图像特征进行学习。VGGNet拥有5 个卷积段，每段含有2-3个卷积层，在卷积结束之后会连接最大池化层来降低维度。每个卷积段内的卷积核拥有同样的数目，卷积核随着段数的增大也在提升，从64个逐次扩大两倍，最终达到512个。

本发明使用的深度卷积神经网络为图3中的D类。表中每一列都是一种深度卷积神经网络，所有的网络配置都是先卷积后池化，最后全连接的标准设计，但是深度差距较大，A网络的权重层有11个，E网络有19个权重层，它们都具有3个全连接层，差距体现在卷积层分别为8个和1个。卷积层的通道数量是比较少的，第1层为64个，每次池化都要扩大1倍，最后达到512个。

该模型在训练过程中，将224×224的RGB图像输入到深度卷积神经网络当中，预处理为将每个像素值减去训练集的RGB均值。然后让图像进行卷积，卷积滤波器为3×3大小，这也是可以获取到周边8个像素点与中心点的最小尺寸。卷积的步长设定为1个像素，卷积层进行空间填充可以对于图像的分辨率进行保持。

对于3×3的卷积层，需要填充1个像素，最大池化层为5个2×2的滑动窗口，其步长为2，连接在卷积层的后面。在卷积层后连接了3个全连接层，前两个维度为4096，最后的全连接层由于ImageNet类别为1000，因此维度为1000，最后一层为softmax层，可以清晰地看出，其包含5个卷积与池化层，输出向量分别为64、128、256、512、512，最后为3个全连接层，输出向量分别为4096、 4096、1000，从而能够得到4096维度的图像向量，并且将其分为1000类。

ImageNet 2012的训练

ImageNet 2012含有126万张训练图片，共分为1000类，该图片数据集是通过网络收集并通过亚马逊机器人来添加标签的。其验证图片集有5万张，一般通过对于验证集进行测试来对其训练效果进行评估。Top 5错误率为分类错误最高的5个类别的错误率。ImageNet 2012的图像尺寸和清晰度各异，为了让其可以正确地输入到我们模型当中，发明人对于所有图像都进行统一化采样处理，将其调整为256×256的大小，具体方法为我们将矩形图像的短边缩小为256像素，然后从中心选取256×256的区域进行分析。我们还将每一个像素点的RGB值减去训练图像的平均RGB值来中心化，深度卷积神经网络采用预处理后的RGB值进行训练；深度卷积神经网络的输入图像有着固定的大小，其尺寸为222基于深度卷积神经网络的图像向量化表示264×224，这是由经过缩放后的训练图像裁剪得到的，为了让训练集的数据增加，裁剪图像时经过随机的翻转和颜色转换来增加不同的图像。

VGG-16模型是按照反向传播来进行模型训练的，本发明的参数设置为：每批训练样本数量为256，动量为0.9，通过权重衰减的方式来进行正则化，惩罚系数设置为5e-4，对于前两个全连接层要进行Dropout，其值设置为0.5，初始的学习率设置为1e-2，在准确率趋于稳定时将学习率降低10倍。整个训练一共进行了370k次迭代，学习率下降过3次，我们的网络在74个周期后就开始收敛。其他参数设置为：Dropout随机舍弃概率为0.5，Momentum动量值为0.9，Lambda 权重衰减值为5e-04，Learning Rate学习率为1e-02，Epochs迭代次数为90。

在对于训练好的网络进行测试的阶段，首先将图像进行预处理，将其裁剪为输入尺寸。图像输入之后对其进行卷积操作，在多次卷积和池化之后进行全连接，然后进行softmax计算，最终将得到多个得分，选取得分最高的5个将是该图片可能性最大的类别。VGG-16模型的结构以及全连接层FC8的权重是一个1000类，每个类别4096维度的向量。

利用主成分分析降维

主成分分析是通过降维的方法来选择几个指标代替所有变量，让这些指标能够较大程度地独立反映出原来所包含的信息，一般把这种降维统计方式叫做主成分分析。主成分分析的核心在于对方差进行计算，对其进行重新组合而找到一组相互独立的新变量对于原来的变量进行替代。1F应当是方差最大的变量，称之为第一主成分，如果其不够表达原有多个变量的信息，那么再依次确定第二、第三主成分等，直到其贡献率满足所需的要求。

分别利用32、64、128、256、512和1024维度来进行主成分分析降维，发明人发现在图像向量维度为256时，其累计贡献率已经达到87.51％。一般来说，累计贡献率在85％以上就可以认为是有效的，256维度向量已经满足于日常的使用要求，因此选择将4096维度向量降低到256维度。

RNN模型构建

采用RNN模型，递归神经网络(Recursive Neural Network,RNN)是较为常见的结合时空的神经网络模型，主要在自然语言处理中进行应用，发明人对其原理和实现方案进行分析。它最大的特点是采用定向循环的方式对于空间结构中有前后关联的输入进行计算。可以把相关的信息映射到语义向量空间当中，将文字转化为向量，语义向量是满足一定约束性质的，如果两句话意思较为相近，那么它们的空间距离也越近，如果两句话的意思差别较大，那么向量距离也会很远。

Word2Vec训练

在Word2Vec的模型当中，有Skip-Gram和CBOW两种模式，前者是通过输入的单词来对于上下文进行预测，后者则是通过前后文来进行输入单词的预测。本实施例的训练与测试是基于Skip-Gram模式。

首先进行预处理，数据预处理主要包括将文本中的特殊符号去掉，去除频率较低的词，对于文本进行分词从而构建语料库。发明人利用Gensim官方提供的 Text8语料库，定义数据处理函数来完成文本的清理与分词，然后我们将进行映射表的构建与词典的分析。可以发现，单词总量达到1668万，词典大小为6万左右，发明人将采用这个语料库进行模型的训练。

在Skip-Gram模型中，训练样本为输入输出对的形式，为了使得模型的噪音减少，同时提升训练的效率，还需要对于样本进行进一步处理，使得样本中的噪声被剔除。在采样过程中，训练样本中的”a”、”the”之类的词会使得训练受到一定的干扰，可以采用对于样本进行抽样的方式来对高频率的干扰词进行去除。

在数据预处理之后就需要对于模型进行构建，利用负采样的方式做好权重的更新工作，输入层到隐藏层的权重矩阵维度设置在50-700之间。在这个过程中，利用负采样的方式进行权重更新。

发明人利用Gensim库中的Word2Vec模型进行训练，为了使得准确度更好，采用官方提供的Text8Corpus进行数据的预处理等工作，同时设置好相关的参数进行训练。Sg＝1表示采用Skip-Gram模式，Size表示词向量的维度为512，Window 表示滑动窗口大小为5，Min_Count表示基础词频，小于这个值的单词会被过滤，本文设置为5，Negative表示负采样噪音词频，本文设置为5，Sampl表示随机采样词频，本文设置为0.001，Hs＝1表示将采用softmax，Workers表示参与训练的并行数，本实施例设置为4。因为之前图像向量降维后为512维度，为了方便进行融合，因此在文本训练中也选择512维度，其他设置参数有：Sg训练模式为1，Size词向量维度512，Window滑动窗口大小5，Min_Count基础词频为 5，Negative负采样噪音词频为3，Sample随机采样词频为0.001，Hs分类模式为1，Workers并行数为4。训练得到512维度的文本向量，与图像向量维度相同，从而有利于实现图像文本异构信息的融合，最后从文本向量转换、相似度计算、线性运算、类别筛选几个方面对所训练模型进行测试，其结果符合词义与日常认知，可证明模型的有效性。

图像文本向量的线性融合

本实施例采用线性集成的方式对于图像文本向量进行融合，通过这样的计算可以有效地保留原有图像文本的信息，计算过程较为简洁，可以提升融合效率。

X为图像向量权重，Y为文本向量权重，A为图像向量矩阵，B为文本向量矩阵，计算公式如下:

K＝XA+YB(X+Y＝1)

经大量实验和计算，我们认为X取0.1，Y取0.9时，推荐准确度最高。

计算相似度及推荐

余弦相似度是通过计算向量空间中的向量夹角来对于个体信息间差异进行衡量的方法。将平面余弦计算公式推广至多维空间，对其夹角来进行计算。余弦值越接近于1，则说明夹角越接近于0°，两个向量的相似度越高。余弦值越接近于-1，则说明夹角越接近于180°，两个向量的相似度越低。相比于欧氏距离，余弦相似度能够更好地反映两个向量之间的相似度关系。欧氏距离衡量的是空间内各点的绝对距离，与每个点具体的坐标有着密切的关系，但是余弦相似度更关注的是向量方向上的差距，因此余弦相似度和欧氏距离有着不同的数据分析模型适用范围。

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于机器学习的图文融合图书推荐方法，其特征在于，包括以下步骤：

步骤四：图像特征与文本特征的融合：设计线性集成方法对于图像文本向量进行融合；

步骤五：实现推荐：利用余弦相似度方法对其进行衡量，并计算分类阈值，结合传统基于物品的协同过滤的推荐方法进行推荐。

2.根据权利要求1所述的基于机器学习的图文融合图书推荐方法，其特征在于，所述步骤一采用基于requests库和beautifulsoup库的网络爬虫采集图书的图片和文本数据，并进行过滤，以此作为数据集。

3.根据权利要求1所述的基于机器学习的图文融合图书推荐方法，其特征在于，所述步骤二中ImageNet2012中的126万张图片是通过网络收集并通过亚马逊机器人来添加标签，对于所有图像都进行统一化采样处理，将其调整为256×256的大小，具体方法为：将矩形图像的短边缩小为256像素，然后从中心选取256×256的区域进行分析，还将每一个像素点的RGB值减去训练图像的平均RGB值来中心化，深度卷积神经网络采用预处理后的RGB值进行训练。

4.根据权利要求1所述的基于机器学习的图文融合图书推荐方法，其特征在于，所述步骤二利用VGG-16深度卷积神经网络对于ImageNet2012中的126万张图片进行训练时，将224×224的RGB图像输入到深度卷积神经网络当中，预处理为将每个像素值减去训练集的RGB均值，然后让图像进行卷积，卷积滤波器为3×3大小，卷积的步长设定为1个像素。

5.根据权利要求1所述的基于机器学习的图文融合图书推荐方法，其特征在于，所述步骤二中VGG-16模型按照反向传播来进行模型训练，其参数设置为：每批训练样本数量为256，动量为0.9，通过权重衰减的方式来进行正则化，惩罚系数设置为5e-4，对于前两个全连接层要进行Dropout，其值设置为0.5，初始的学习率设置为1e-2，在准确率趋于稳定时将学习率降低10倍；Dropout随机舍弃概率为0.5，Momentum动量值为0.9，Lambda权重衰减值为5e-04，Learning Rate学习率为1e-02，Epochs迭代次数为90。

6.根据权利要求1所述的基于机器学习的图文融合图书推荐方法，其特征在于，所述步骤三中Word2Vec框架基于Skip-Gram模式，将文本中的特殊符号去掉，去除频率较低的词，对于文本进行分词从而构建语料库。

7.根据权利要求1所述的基于机器学习的图文融合图书推荐方法，其特征在于，所述步骤四中采用线性集成的方式对于图像文本向量进行融合，设定X为图像向量权重，Y为文本向量权重，A为图像向量矩阵，B为文本向量矩阵，计算公式如下:

K＝XA+YB(X+Y＝1)，

其中，X取0.1，Y取0.9。