CN111339427A

CN111339427A - 一种图书信息推荐方法、装置、系统及存储介质

Info

Publication number: CN111339427A
Application number: CN202010207828.XA
Authority: CN
Inventors: 李纯懿
Original assignee: Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Current assignee: Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Priority date: 2020-03-23
Filing date: 2020-03-23
Publication date: 2020-06-26
Anticipated expiration: 2040-03-23
Also published as: CN111339427B

Abstract

本发明公开了一种图书信息推荐方法、装置、系统以及计算机可读存储介质，通过获取过往所选图书信息；调用预先建立的关联规则数据库，关联规则数据库的建立过程包括：获取图书信息与用户数据；采用改进关联分析数据挖掘算法对图书信息与用户数据进行数据挖掘，挖掘支持度大于最小支持度阈值以及置信度大于最小置信度阈值的强关联规则，形成关联规则数据库；将过往所选图书信息与关联规则数据库进行关联匹配，按照匹配度生成推荐图书信息。本申请通过改进关联分析数据挖掘算法有效挖掘图书之间的强关联性，并利用挖掘信息结果为借阅者推荐与过往所选图书相关联的图书，能够准确挖掘图书关联信息，实现实时、高效个性化推荐。

Description

一种图书信息推荐方法、装置、系统及存储介质

技术领域

本发明涉及深度学习技术领域，更具体地说，涉及一种图书信息推荐方法、装置、系统以及计算机可读存储介质。

背景技术

随着图书的不断流通以及增加，借阅者以及图书信息的增加为图书管理增加了难度，高效地推荐图书信息对提高借阅者的学习效率以及图书管理效率都具有非常重要的作用。传统单机环境下的推荐系统无法满足大数据规模资源的存储与计算需求。对于推荐内容的计算，现有技术通过将推荐系统与Hadoop进行集成来解决海量数据计算的问题，但是采用该技术还存在诸多缺陷，无法满足实时、快速计算的需要，因而只适用于离线处理的应用场景。

因此，如何提供一种实时、高效地图书信息推荐技术，是本领域技术人员需要解决的问题。

发明内容

本发明的目的在于提供一种图书信息推荐方法、装置、系统以及计算机可读存储介质，以解决现有推荐系统无法实时、高效推荐图书信息的问题。

为实现上述目的，本发明实施例提供了如下技术方案：

一种图书信息推荐方法，包括：

获取过往所选图书信息；

调用预先建立的关联规则数据库，所述关联规则数据库的建立过程包括：获取图书信息与用户数据；采用改进关联分析数据挖掘算法对所述图书信息与所述用户数据进行数据挖掘，挖掘支持度大于最小支持度阈值以及置信度大于最小置信度阈值的强关联规则，形成关联规则数据库；

将所述过往所选图书信息与所述关联规则数据库进行关联匹配，按照匹配度生成推荐图书信息。

可选地，所述采用改进关联分析数据挖掘算法对所述图书信息与所述用户数据进行数据挖掘，形成关联规则数据库包括：

将扫描数据库后的数据赋值给初始化后的矩阵D，从而获得布尔矩阵D1，所述布尔矩阵D1的行与列分别代表项I与事务T，在所述布尔矩阵D1的最后增加1列，该列对应的数值为每行中“1”的个数；当事务T1内含有“1”时，则T11＝1，否则T11＝0；将每行数据相加，确定最小支持度阈值；计算各项的支持度，如果某项的支持度小于所述最小支持度阈值,则删除该项所对应的矩阵列，从而获得频繁项集L；将频繁项集L自连接获取集合C，计算矩阵各行“1”的出现次数，进行“与”运算，求和后获得频繁项集L’，最终生成强关联规则数据库。

可选地，在所述采用改进关联分析数据挖掘算法对所述图书信息与所述用户数据进行数据挖掘之前还包括：

对所述图书信息与所述用户数据进行数据清洗、和/或数据转换、和/或数据集成操作。

可选地，所述获取图书信息与用户数据包括：

通过python的分布式爬取框架从目标网站上爬取所述图书信息与用户数据。

可选地，所述将所述过往所选图书信息与所述关联规则数据库进行关联匹配，按照匹配度生成推荐图书信息包括：

将所述过往所选图书信息与所述关联规则数据库进行关联匹配，按照匹配度的高低排序生成推荐图书目录。

可选地，所述图书信息包括以下任意一种或任意组合：用户评论信息、阅读时间信息、图书的标签信息、作者信息、出版社信息、数值化的评分信息、文字评价信息。

本申请还提供了一种图书信息推荐装置，包括：

获取模块，用于获取过往所选图书信息；

调用模块，用于调用预先建立的关联规则数据库，所述关联规则数据库的建立过程包括：获取图书信息与用户数据；采用改进关联分析数据挖掘算法对所述图书信息与所述用户数据进行数据挖掘，挖掘支持度大于最小支持度阈值以及置信度大于最小置信度阈值的强关联规则，形成关联规则数据库；

推荐模块，用于将所述过往所选图书信息与所述关联规则数据库进行关联匹配，按照匹配度生成推荐图书信息。

可选地，还包括：

数据预处理模块，用于在所述采用改进关联分析数据挖掘算法对所述图书信息与所述用户数据进行数据挖掘之前，对所述图书信息与所述用户数据进行数据清洗、和/或数据转换、和/或数据集成操作。

本申请还提供了一种图书信息推荐系统，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述任一种所述图书信息推荐方法的步骤。

本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种所述图书信息推荐方法的步骤。

通过以上方案可知，本发明实施例提供的图书信息推荐方法，通过获取过往所选图书信息；调用预先建立的关联规则数据库，关联规则数据库的建立过程包括：获取图书信息与用户数据；采用改进关联分析数据挖掘算法对图书信息与用户数据进行数据挖掘，挖掘支持度大于最小支持度阈值以及置信度大于最小置信度阈值的强关联规则，形成关联规则数据库；将过往所选图书信息与关联规则数据库进行关联匹配，按照匹配度生成推荐图书信息。本申请通过改进关联分析数据挖掘算法有效挖掘图书之间的强关联性，并利用挖掘信息结果为借阅者推荐与过往所选图书相关联的图书，能够准确挖掘图书关联信息，实现实时、高效个性化推荐。此外，本申请还提供了一种具有同样上述技术效果的图书信息推荐装置、系统以及计算机可读存储介质。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的图书信息推荐方法的一种具体实施方式的流程图；

图2为本发明实施例公开的图书信息推荐方法中关联规则数据库的建立过程示意图；

图3为本发明实施例公开的本发明实施例提供的图书信息推荐装置的结构框图；

图4为本申请所提供的图书信息推荐系统的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种图书信息推荐方法，该图书信息推荐方法对应图书信息推荐系统。图书信息推荐系统通过将C/S架构(客户端/服务器)与B/S(浏览器/服务器)架构相结合，采用C/S架构设计与实现的系统管理模块、数据挖掘管理模块等管理模块向图书馆工作人员开放，而采用B/S架构的查询图书、借阅记录以及个性化推荐等模块向所有借阅者开放。

参见图1本发明实施例提供的图书信息推荐方法的一种具体实施方式的流程图，该方法具体包括：

步骤S101：获取过往所选图书信息；

本步骤可以直接从读者借阅数据库中提取到借阅者的过往所选图书信息，图书信息可以具体为图书的用户评论信息、阅读时间信息、图书的标签信息、作者信息、出版社信息、数值化的评分信息、文字评价信息等，在此不做限定。

步骤S102：调用预先建立的关联规则数据库，所述关联规则数据库的建立过程包括：获取图书信息与用户数据；采用改进关联分析数据挖掘算法对所述图书信息与所述用户数据进行数据挖掘，挖掘支持度大于最小支持度阈值以及置信度大于最小置信度阈值的强关联规则，形成关联规则数据库；

预先建立的关联规则数据库为对大量样本数据进行数据挖掘后建立的强关联规则，大量样本数据包括图书信息与用户数据。数据挖掘采用的算法为改进关联分析数据挖掘算法，挖掘支持度大于最小支持度阈值以及置信度大于最小置信度阈值的强关联规则，形成关联规则数据库。这样通过输入过往所选图书信息，即可根据该强关联规则，得到可以推荐的图书信息，用于推荐。

步骤S103：将所述过往所选图书信息与所述关联规则数据库进行关联匹配，按照匹配度生成推荐图书信息。

作为一种具体实施方式，将所述过往所选图书信息与所述关联规则数据库进行关联匹配，可以按照匹配度的高低排序生成推荐图书目录，即按照匹配程度的高低不同生成列表，匹配程度高的图书排在列表靠前的位置。将该推荐图书目录推送给借阅者，来实现针对借阅者自身兴趣爱好习惯等的个性化推荐，优化了用户的使用体验。

通过以上方案可知，本发明实施例提供的图书信息推荐方法，通过获取过往所选图书信息；调用预先建立的关联规则数据库，关联规则数据库的建立过程包括：获取图书信息与用户数据；采用改进关联分析数据挖掘算法对图书信息与用户数据进行数据挖掘，挖掘支持度大于最小支持度阈值以及置信度大于最小置信度阈值的强关联规则，形成关联规则数据库；将过往所选图书信息与关联规则数据库进行关联匹配，按照匹配度生成推荐图书信息。本申请通过改进关联分析数据挖掘算法有效挖掘图书之间的强关联性，并利用挖掘信息结果为借阅者推荐与过往所选图书相关联的图书，能够准确挖掘图书关联信息，实现实时、高效个性化推荐。

参照图2本申请所提供的关联规则数据库的建立过程示意图所示，下面对建立关联规则数据库的过程进行进一步详细介绍。

步骤S201：获取图书信息与用户数据；

其中，所述图书信息包括以下任意一种或任意组合：用户评论信息、阅读时间信息、图书的标签信息、作者信息、出版社信息、数值化的评分信息、文字评价信息。具体地，可以通过python的分布式爬取框架scrapy-redis从目标网站上爬取所述图书信息与用户数据，还可以从读者借阅数据库中提取图书信息与用户数据。

步骤S202：对所述图书信息与所述用户数据进行数据清洗、和/或数据转换、和/或数据集成操作；

对爬虫爬到的数据进行数据清洗，数据清洗包括但不限于检查数据有无空值，有无格式错误的值。在进行数据清洗之后还可以进行数据转换操作，最后进行集成数据操作。

步骤S203：采用改进关联分析数据挖掘算法对所述图书信息与所述用户数据进行数据挖掘，挖掘支持度大于最小支持度阈值以及置信度大于最小置信度阈值的强关联规则，形成关联规则数据库；

利用改进关联分析数据挖掘算法对所述图书信息与所述用户数据进行数据挖掘。具体地，确定I＝{I1,I2,…,Im}为项的集合,DB为事务数据库，T＝{T1,T2,…,Tn}是所有事务的集合，每个事务Ti包含的项集都是I的子集,表示为

对每一个事务Ti有唯一的标识，如事务号，记作TID。

A是其中一个项集，A属于事务T，关联规则是形如蕴含表达式A→B，

并且

规则的支持度(support)是事务数据库DB同时包含A和B的百分比，即项集A与项集B在相同时间内出现在事务中的概率，用概率表示P(A∪B)；规则的置信度(confidence)表示既包含A项集也包含B项集的百分比，用概率表示为P(B|A)。

若属于事务集合T内的A→B符合Support(A→B)≥Min-support(最小支持度)，且同时符合Confidence(A→B)≥Min-confidence(最小置信度)，则事务集合T中的强关联规则是A→B。若某个项集的出现次数大于或等于最小支持度(Min-support)，则该项集满足最小支持度，称为频繁项集。

Apriori是数据挖掘经典算法，但Apriori算法有2个与性能效率有关的缺陷：多次重复扫描事务数据库，I/O负载过重导致执行效率不高；可能产生庞大的候选项集，这些候选项集的筛选与存储，将耗费巨大的时间和空间。

关联规则中的Apriori数据挖掘算法实质是从数据库中挖掘支持度大于最小支持度阈值以及置信度大于最小置信度阈值的强关联规则。本申请采用的改进关联分析数据挖掘算法，将扫描数据库后的数据赋值给初始化后的矩阵D，从而获得布尔矩阵D1，该矩阵的行与列分别代表项I与事务T，在矩阵最后增加1列，该列对应的数值为每行中“1”的个数；当事务T1内含有“1”时，则T11＝1，否则T11＝0；将每行数据相加，确定最小支持度(Minsup-count)，计算各项的支持度，如果某项的支持度小于最小支持度,则删除该项所对应的矩阵列，从而可获得频繁项集L；将频繁项集L自连接获取集合C，计算矩阵各行“1”的出现次数，进行“与”运算，求和后获得频繁项集L’。

本实施例中改进关联分析数据挖掘算法通过改变布尔矩阵压缩方式，直接删除非频繁项集，能够简化矩阵，提高算法的运行效率和存储空间利用率。此外，通过在矩阵最后增加一列还可以减少矩阵的扫描次数，从而减轻I/O的负载，提高了执行效率。

基于形成的关联规则数据库，输入借阅者过往所选图书信息，与该关联规则数据库进行关联匹配，即可生成个性化的推荐书籍信息。可见，本申请通过改进关联分析数据挖掘算法有效挖掘图书之间的强关联性，并利用挖掘信息结果为借阅者推荐与过往所选图书相关联的图书，能够准确挖掘图书关联信息，实现实时、高效个性化推荐。同时，本申请还可以有效降低计算机的占用内存，辅助图书馆为借阅者提供个性化信息推荐服务。

下面对本发明实施例提供的图书信息推荐装置进行介绍，下文描述的图书信息推荐装置与上文描述的图书信息推荐方法可相互对应参照。

图3为本发明实施例提供的图书信息推荐装置的结构框图，参照图3图书信息推荐装置可以包括：

获取模块100，用于获取过往所选图书信息；

调用模块200，用于调用预先建立的关联规则数据库，所述关联规则数据库的建立过程包括：获取图书信息与用户数据；采用改进关联分析数据挖掘算法对所述图书信息与所述用户数据进行数据挖掘，挖掘支持度大于最小支持度阈值以及置信度大于最小置信度阈值的强关联规则，形成关联规则数据库；

推荐模块300，用于将所述过往所选图书信息与所述关联规则数据库进行关联匹配，按照匹配度生成推荐图书信息。

进一步地，本申请所提供的图书信息推荐装置还可以包括：数据预处理模块，用于在所述采用改进关联分析数据挖掘算法对所述图书信息与所述用户数据进行数据挖掘之前，对所述图书信息与所述用户数据进行数据清洗、和/或数据转换、和/或数据集成操作。

其中，所述图书信息推荐装置中推荐模块300具体用于将所述过往所选图书信息与所述关联规则数据库进行关联匹配，按照匹配度的高低排序生成推荐图书目录。

本实施例的图书信息推荐装置用于实现前述的图书信息推荐方法，因此图书信息推荐装置中的具体实施方式可见前文中的图书信息推荐方法的实施例部分，例如，获取模块100，调用模块200，推荐模块300，分别用于实现上述图书信息推荐方法中步骤S101，S102，S103，所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再赘述。

本发明实施例提供的图书信息推荐装置，通过获取过往所选图书信息；调用预先建立的关联规则数据库，关联规则数据库的建立过程包括：获取图书信息与用户数据；采用改进关联分析数据挖掘算法对图书信息与用户数据进行数据挖掘，挖掘支持度大于最小支持度阈值以及置信度大于最小置信度阈值的强关联规则，形成关联规则数据库；将过往所选图书信息与关联规则数据库进行关联匹配，按照匹配度生成推荐图书信息。本申请通过改进关联分析数据挖掘算法有效挖掘图书之间的强关联性，并利用挖掘信息结果为借阅者推荐与过往所选图书相关联的图书，能够准确挖掘图书关联信息，实现实时、快速个性化推荐。

此外，本申请还提供了一种图书信息推荐系统，如图4所示，该图书信息推荐系统1具体可以包括：

存储器11，用于存储计算机程序；

处理器12，用于执行所述计算机程序时实现如下步骤：获取过往所选图书信息；调用预先建立的关联规则数据库，所述关联规则数据库的建立过程包括：获取图书信息与用户数据；采用改进关联分析数据挖掘算法对所述图书信息与所述用户数据进行数据挖掘，挖掘支持度大于最小支持度阈值以及置信度大于最小置信度阈值的强关联规则，形成关联规则数据库；将所述过往所选图书信息与所述关联规则数据库进行关联匹配，按照匹配度生成推荐图书信息。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是内部存储单元，例如硬盘。存储器11在另一些实施例中也可以是设备的外部存储设备，例如插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于设备的应用软件及各类数据，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据。

可选地，所述处理器12用于执行所述计算机程序时具体实现如下步骤：将扫描数据库后的数据赋值给初始化后的矩阵D，从而获得布尔矩阵D1，所述布尔矩阵D1的行与列分别代表项I与事务T，在所述布尔矩阵D1的最后增加1列，该列对应的数值为每行中“1”的个数；当事务T1内含有“1”时，则T11＝1，否则T11＝0；将每行数据相加，确定最小支持度阈值；计算各项的支持度，如果某项的支持度小于所述最小支持度阈值,则删除该项所对应的矩阵列，从而获得频繁项集L；将频繁项集L自连接获取集合C，计算矩阵各行“1”的出现次数，进行“与”运算，求和后获得频繁项集L’，最终生成强关联规则数据库。

可选地，所述处理器12用于执行所述计算机程序时还可以实现如下步骤：在采用改进关联分析数据挖掘算法对所述图书信息与所述用户数据进行数据挖掘之前，对所述图书信息与所述用户数据进行数据清洗、和/或数据转换、和/或数据集成操作。

可选地，所述处理器12用于执行所述计算机程序时具体实现如下步骤：通过python的分布式爬取框架从目标网站上爬取所述图书信息与用户数据。

可选地，所述处理器12用于执行所述计算机程序时具体实现如下步骤：将所述过往所选图书信息与所述关联规则数据库进行关联匹配，按照匹配度的高低排序生成推荐图书目录。

此外，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种图书信息推荐方法的步骤。

本申请所提供的图书信息推荐系统、计算机可读存储介质与前述方法相对应。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。综上所述，本申请通过改进关联分析数据挖掘算法有效挖掘图书之间的强关联性，并利用挖掘信息结果为借阅者推荐与过往所选图书相关联的图书，能够准确挖掘图书关联信息，实现实时、快速个性化推荐。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的图书信息推荐方法、装置、系统以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种图书信息推荐方法，其特征在于，包括：

获取过往所选图书信息；

2.如权利要求1所述的图书信息推荐方法，其特征在于，所述采用改进关联分析数据挖掘算法对所述图书信息与所述用户数据进行数据挖掘，形成关联规则数据库包括：

3.如权利要求2所述的图书信息推荐方法，其特征在于，在所述采用改进关联分析数据挖掘算法对所述图书信息与所述用户数据进行数据挖掘之前还包括：

4.如权利要求3所述的图书信息推荐方法，其特征在于，所述获取图书信息与用户数据包括：

5.如权利要求1至4任一项所述的图书信息推荐方法，其特征在于，所述将所述过往所选图书信息与所述关联规则数据库进行关联匹配，按照匹配度生成推荐图书信息包括：

6.如权利要求5所述的图书信息推荐方法，其特征在于，所述图书信息包括以下任意一种或任意组合：用户评论信息、阅读时间信息、图书的标签信息、作者信息、出版社信息、数值化的评分信息、文字评价信息。

7.一种图书信息推荐装置，其特征在于，包括：

获取模块，用于获取过往所选图书信息；

8.如权利要求7所述的图书信息推荐装置，其特征在于，还包括：

9.一种图书信息推荐系统，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至6任一项所述图书信息推荐方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述图书信息推荐方法的步骤。