CN102254003A - 一种图书推荐方法 - Google Patents

一种图书推荐方法 Download PDF

Info

Publication number
CN102254003A
CN102254003A CN2011101976101A CN201110197610A CN102254003A CN 102254003 A CN102254003 A CN 102254003A CN 2011101976101 A CN2011101976101 A CN 2011101976101A CN 201110197610 A CN201110197610 A CN 201110197610A CN 102254003 A CN102254003 A CN 102254003A
Authority
CN
China
Prior art keywords
seq
book
borrowing
sequence
reader
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011101976101A
Other languages
English (en)
Inventor
孙蕾
朱玉全
陈耿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN2011101976101A priority Critical patent/CN102254003A/zh
Publication of CN102254003A publication Critical patent/CN102254003A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于序列模式的图书推荐方法,先以借书证号为主键,借阅时间为次键,对图书借阅数据库中的各记录进行排序,将其转换成由借阅序列数据组成的序列数据库;求出序列数据库中所有的仅包含一个图书集的频繁序列模式的大图书集,并将所有大图书集映射为一组相邻的整数;再将序列数据库中各借阅序列数据用该序列数据所包含的大图书集代替;利用大图书集挖掘出频繁序列模式集;最后在频繁序列模式集中找出最大频繁序列模式集,构造读者借书行为库,能有效地发现图书馆借阅数据库中的读者借阅行为,据此可向读者推荐相关图书。

Description

一种图书推荐方法
技术领域
本发明属于图书馆数据的计算机分析技术的应用领域,具体涉及一种基于序列模式的图书推荐方法。
背景技术
图书推荐是指图书馆工作人员通过各种形式和手段,有选择地将图书展示、推荐给相关读者。图书推荐是高校图书馆中的一项日常工作,该项工作的顺利开展可以有效发挥馆藏图书的效用,进一步提高图书的利用率以及图书馆的服务水平和服务意识。
目前常用的图书推荐方法是流通部管理人员根据读者的要求和自己对馆藏图书的熟悉程度,推荐相关图书以满足读者的需求,该方法要求流通部管理人员对书库藏书的类别、版本、图书内容、读者的兴趣爱好等了如指掌,对于小型图书馆而言,这也许是一件并不困难的事情。但随着图书馆藏书量及其所涉及领域的不断增多,要求图书馆工作人员全面了解书库藏书的类别和图书内容等是一件非常困难的事情,或者根本做不到,就难实现图书的展示和推荐。
发明内容
本发明针对现有图书推荐方法的可操作性差等问题,提出一种基于序列模式的图书推荐方法,能更方便、更准确地发现读者的借阅行为习惯,实现图书的自动推荐,同时又不会增加图书馆流通部管理人员的负担。  
本发明提出的基于序列模式的图书推荐方法包括以下步骤:
(1) 以借书证号为主键,借阅时间为次键,对图书借阅数据库D中的各记录进行排序,将其转换成由借阅序列数据组成的序列数据库SD;
(2) 求出序列数据库SD中所有的仅包含一个图书集的频繁序列模式的大图书集L,并将所有大图书集映射为一组相邻的整数;
(3)将序列数据库SD中各借阅序列数据用该序列数据所包含的大图书集L代替; 
(4)利用大图书集L挖掘出频繁序列模式集SP;
(5)在频繁序列模式集SP中找出最大频繁序列模式集MSP  
(6)由最大频繁序列模式集MSP构造读者借书行为库RBBD  
(7)根据读者借书行为库RBBD按如下步骤推荐图书:
 扫描借阅序列数据库SD一次,查找借书证号为A.No的已有的借阅行为,其结果记为A.Seq,A.Seq=<a1,a2,…...,am>,其中m为该借阅行为的长度,ai为图书的集合,i=1,2,……,m;
Figure 2011101976101100002DEST_PATH_IMAGE002
 计算A.Seq与读者借阅行为库中各模式t.Seq的相似度sim(A.Seq,t.Seq),t.Seq=<t1,t2,…...,tn>,n为该借阅序列数据的长度,ti为图书的集合,i=1,2,……,n;sim(A.Seq,t.Seq)的计算方法为:如果A.Seq为t.Seq的子序列,即存在i1<i2<…< im,使得a1
Figure 896385DEST_PATH_IMAGE003
Figure 2011101976101100002DEST_PATH_IMAGE004
,a2
Figure 613805DEST_PATH_IMAGE003
Figure 195965DEST_PATH_IMAGE005
,……,am
Figure 948020DEST_PATH_IMAGE003
Figure 2011101976101100002DEST_PATH_IMAGE006
,则sim(A.Seq,t.Seq)=1;否则sim(A.Seq,t.Seq)=0;
 对于读者借书行为库RBBD中的模式t.Seq,若sim(A.Seq,t.Seq)=1,则将tk,…..., tn推荐给读者A,k= im+1,并优先推荐tk,其次是tk+1,……,最后推荐的是tn
 本发明的有益效果主要表现在:可以有效地发现图书馆借阅数据库中的读者借阅行为,据此可向读者推荐相关图书。一方面可以帮助尽量多的读者解决选书难的问题,明显减少了读者的选择范围,节省了读者的借阅时间;另一方面克服了现有图书推荐方法对流通部管理人员所提出的苛刻要求,如对书库藏书的类别、版本、图书内容、读者的兴趣爱好等了如指掌等,进一步提高了推荐方法的可操作性。
附图说明
图1是读者借书行为发现流程图;
图2是读者A的图书推荐流程图。
具体实施方式
先对数据进行预处理,以借书证号为主键,借阅时间为次键,对图书借阅数据库D中的各记录进行排序,将其转换成由借阅序列数据组成的序列数据库SD。再发现隐含在序列数据库SD中的读者借书行为,参见图1,具体方法为:
1、求出序列数据库SD中所有的大图书集L,所谓大图书集是指那些仅包含一个图书集的频繁序列模式,并将所有大图书集映射为一组相邻的整数。如求出的L为:{<{经济计量模型}>,<{数理统计}>,<{会计研究,财务管理}>},L中每个元素仅包含一个图书集,它们分别是{经济计量模型}、{数理统计}、{会计研究,财务管理},可以将此三个大图书集分别映射到1、2、3,当然也可以是5、6、7,一般情况下可以是k、k+1、k+2,k>1。
2、将序列数据库SD中各借阅序列数据用该序列数据所包含的大图书集L代替,设转换后的序列数据库为SD’。假设SD中的一条借阅序列数据为:<{经济计量模型,人工智能},{数理统计,会计研究,财务管理},则将该借阅序列数据转换为:<{1},{2,3}>,因图书集{经济计量模型,人工智能}中仅包含大图书集{经济计量模型},因而将其转换成{1};因图书集{数理统计,会计研究,财务管理}中包含了大图书集{数理统计}、{会计研究,财务管理},因而将其转换成{2,3}。
3、利用大图书集L挖掘出频繁序列模式集。
设用户给定的最小支持度阈值为minsup,假设第
Figure 162150DEST_PATH_IMAGE001
步产生了m个大图书集,并将其映射到1,2,……,m。利用这m个大图书集来挖掘频繁序列模式集的步骤包括:
a、 CSP1={1,2,…,m};// CSP1用来存放长度为1的候选频繁序列模式,其初值即为所有的大图书集。下面的CSPk用来存放长度为k的候选频繁序列模式
b、for(k=2; CSPk-1
Figure 2011101976101100002DEST_PATH_IMAGE008
;k++) do begin//k为循环变量
c、CSPk=
Figure 154563DEST_PATH_IMAGE009
;
d、for each p
Figure 2011101976101100002DEST_PATH_IMAGE010
CSPk-1 do
e、for each q
Figure 272560DEST_PATH_IMAGE010
CSPk-1 do
f、如果集合p和q中的元素有且只有一个不同
g、如果集合p
Figure 26890DEST_PATH_IMAGE011
q的所有长度为k-1的子集均为频繁序列模式
h、CSPk= CSPk
Figure 950852DEST_PATH_IMAGE011
pq;//置 p
Figure 28715DEST_PATH_IMAGE011
q为候选频繁序列模式;
i、扫描SD’求出CSPk中各元素的支持数或支持度;
j、SPk={c
Figure 2011101976101100002DEST_PATH_IMAGE012
CSPk|sup(c)
Figure 208024DEST_PATH_IMAGE013
minsup};// sup(c)为元素c的支持度
k、end;
l、SP=
Figure 2011101976101100002DEST_PATH_IMAGE014
;//SP即为频繁序列模式集
m、将SP中的整数转换成相应的大图书集。
4、在频繁序列模式集SP中找出最大频繁序列模式集MSP,所谓最大频繁序列模式是指它本身是频繁序列模式,但包含它的任何序列模式均为非频繁序列模式。
5、 构造读者借书行为库RBBD,RBBD是由MSP组成的,其形式为:< b1, b2,…..., bp >,p为借阅行为的长度,bi为图书的集合,i=1,2,……,p。其物理意义为:某读者在借阅了图书集b1后,过了一段时间后借阅了图书集b2,又过了一段时间后借阅了图书集b3,以此类推,最近一次所借阅图书集为bp
发现读者借书行为的目的是为下一步的图书推荐提供依据。
参见图2,根据读者借书行为库RBBD给出相应的图书推荐方案。对于读者A而言,假设该读者的借书证号为A.No,具体推荐步骤如下:
1、扫描借阅序列数据库SD一次,查找借书证号为A.No的已有的借阅行为,其结果记为A.Seq,A.Seq=<a1,a2,…...,am>,其中m为该借阅行为的长度,ai为图书的集合,i=1,2,……,m。
2、计算A.Seq与读者借阅行为库中各模式t.Seq的相似度sim(A.Seq,t.Seq),t.Seq=<t1,t2,…...,tn>,n为该借阅序列数据的长度,ti为图书的集合,i=1,2,……,n。
sim(A.Seq,t.Seq)的计算方法为:如果A.Seq为t.Seq的子序列,即存在i1<i2<…< im,使得a1
Figure 607781DEST_PATH_IMAGE003
,a2
Figure 773369DEST_PATH_IMAGE003
Figure 439974DEST_PATH_IMAGE005
,……,am
Figure 705739DEST_PATH_IMAGE003
Figure 203717DEST_PATH_IMAGE006
,则sim(A.Seq,t.Seq)=1;否则sim(A.Seq,t.Seq)=0。
3、对于读者借阅行为库RBBD中的模式t.Seq而言,如果sim(A.Seq,t.Seq)=1,则将tk,…..., tn推荐给读者A,k= im+1,并优先推荐tk,其次是tk+1,……,最后推荐的是tn
以下提供本发明的一个实施例以进一步说明本发明。
实施例
以表1所示的图书借阅数据库D为例: 
 
Figure 913047DEST_PATH_IMAGE015
以借书记录的借书证号为主键,借阅时间为次键,对图书借阅数据库D中的各记录进行排序,将其转换成由借阅序列数据组成的序列数据库SD,具体结果如表2所示。
Figure 2011101976101100002DEST_PATH_IMAGE016
根据给定的最小支持度阈值minsup,发现借阅序列数据库SD中所有的读者借书行为。设minsup=30%,部分结果如表3所示。
Figure 50636DEST_PATH_IMAGE017
如第1条行为表示有30%的读者在借阅了经济计量模型方面的书后,紧接着借阅了多元统计分析方面的书,过一段时间后又会借阅数理统计方面的书,最近一次所借阅图书集为管理学和会计研究方面的书。其它借阅行为的含义类同。
由表3可得相关推荐信息,如某读者已借阅了有关《经济计量模型》和《多元统计分析》方面的书,即该读者已有的借阅行为为:<{经济计量模型},{多元统计分析}>,分别计算该借阅行为与读者借阅行为库中各模式的相似度,计算结果分别为1、0、……。由于该借阅行为与读者借阅行为库中行为编号为1的模式之间的相似度为1,故可以把有关《数理统计》、《管理学》、《会计研究》方面的书推荐给他(她),并优先推荐《数理统计》方面的书;同样,如果某读者已借阅了有关《会计研究》和《财务管理》方面的书,那么可以把有关《管理学》方面的书推荐给他(她)。其它可以类推。这样可以有针对性地提供优质服务,变被动服务为主动服务。

Claims (2)

1.一种图书推荐方法,其特征是采用如下步骤:
(1) 以借书证号为主键,借阅时间为次键,对图书借阅数据库D中的各记录进行排序,将其转换成由借阅序列数据组成的序列数据库SD;
(2) 求出序列数据库SD中所有的仅包含一个图书集的频繁序列模式的大图书集L,并将所有大图书集映射为一组相邻的整数;
(3)将序列数据库SD中各借阅序列数据用该序列数据所包含的大图书集L代替; 
(4)利用大图书集L挖掘出频繁序列模式集SP;
(5)在频繁序列模式集SP中找出最大频繁序列模式集MSP;
(6)由最大频繁序列模式集MSP构造读者借书行为库RBBD; 
(7)根据读者借书行为库RBBD按如下步骤推荐图书:
Figure 2011101976101100001DEST_PATH_IMAGE002
 扫描借阅序列数据库SD一次,查找借书证号为A.No的已有的借阅行为,其结果记为A.Seq,A.Seq=<a1,a2,…...,am>,其中m为该借阅行为的长度,ai为图书的集合,i=1,2,……,m;
 计算A.Seq与读者借阅行为库中各模式t.Seq的相似度sim(A.Seq,t.Seq),t.Seq=<t1,t2,…...,tn>,n为该借阅序列数据的长度,ti为图书的集合,i=1,2,……,n;
所述sim(A.Seq,t.Seq)的计算方法为:如果A.Seq为t.Seq的子序列,即存在i1<i2<…< im,使得a1
Figure 2011101976101100001DEST_PATH_IMAGE008
,a2
Figure 58000DEST_PATH_IMAGE006
,……,am
Figure 2011101976101100001DEST_PATH_IMAGE012
,则sim(A.Seq,t.Seq)=1;否则sim(A.Seq,t.Seq)=0;
Figure 2011101976101100001DEST_PATH_IMAGE014
 对于读者借书行为库RBBD中的模式t.Seq,若sim(A.Seq,t.Seq)=1,则将tk,…..., tn推荐给读者A,k= im+1,并优先推荐tk,其次是tk+1,……,最后推荐的是tn
2.根据权利要求1所述的一种图书推荐方法,其特征是:步骤(6)中读者借书行为库RBBD的形式为:< b1, b2,…..., bp >,p为借阅行为的长度,bi为图书的集合,i=1,2,……,p;其物理意义为:某读者在借阅了图书集b1后,过了一段时间后借阅了图书集b2,又过了一段时间后借阅了图书集b3,以此类推,最近一次所借阅图书集为bp
CN2011101976101A 2011-07-15 2011-07-15 一种图书推荐方法 Pending CN102254003A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011101976101A CN102254003A (zh) 2011-07-15 2011-07-15 一种图书推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011101976101A CN102254003A (zh) 2011-07-15 2011-07-15 一种图书推荐方法

Publications (1)

Publication Number Publication Date
CN102254003A true CN102254003A (zh) 2011-11-23

Family

ID=44981267

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011101976101A Pending CN102254003A (zh) 2011-07-15 2011-07-15 一种图书推荐方法

Country Status (1)

Country Link
CN (1) CN102254003A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750360A (zh) * 2012-06-12 2012-10-24 清华大学 一种用于推荐系统的计算机数据挖掘方法
CN103176982A (zh) * 2011-12-20 2013-06-26 中国移动通信集团浙江有限公司 一种电子图书推荐的方法及系统
CN104111939A (zh) * 2013-04-18 2014-10-22 中国移动通信集团浙江有限公司 一种图书推荐方法和装置
CN105138539A (zh) * 2015-07-08 2015-12-09 百度在线网络技术(北京)有限公司 信息搜索方法和系统
WO2017124262A1 (zh) * 2016-01-18 2017-07-27 杨瑛 通过刷取身份证信息推荐书籍的方法以及图书推荐系统
CN109670034A (zh) * 2018-12-25 2019-04-23 杭州铭智云教育科技有限公司 一种读者信息数据处理方法及装置
CN109684368A (zh) * 2018-12-25 2019-04-26 杭州铭智云教育科技有限公司 一种发布目标文献名录方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452477A (zh) * 2007-12-04 2009-06-10 索尼株式会社 信息处理设备、信息处理方法和程序
CN101529418A (zh) * 2006-01-19 2009-09-09 维里德克斯有限责任公司 用于获取、分析和挖掘数据和信息的系统和方法
WO2011075119A1 (en) * 2009-12-15 2011-06-23 Intel Corporation Systems, apparatus and methods using probabilistic techniques in trending and profiling and template-based predictions of user behavior in order to offer recommendations

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101529418A (zh) * 2006-01-19 2009-09-09 维里德克斯有限责任公司 用于获取、分析和挖掘数据和信息的系统和方法
CN101452477A (zh) * 2007-12-04 2009-06-10 索尼株式会社 信息处理设备、信息处理方法和程序
WO2011075119A1 (en) * 2009-12-15 2011-06-23 Intel Corporation Systems, apparatus and methods using probabilistic techniques in trending and profiling and template-based predictions of user behavior in order to offer recommendations

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
丁雪: "基于数据挖掘的图书智能推荐系统研究", 《情报理论与实践》, vol. 33, no. 5, 31 May 2010 (2010-05-31), pages 107 - 110 *
于徽: "数据挖掘在图书馆用户行为分析中的应用研究", 《中国优秀硕士学位论文全文数据库》, 31 August 2009 (2009-08-31) *
朱玉全 等: "《数据挖掘技术》", 30 November 2006, article "序列模式挖掘" *
王春贺: "个性化推荐技术研究及其在数字图书馆中应用", 《中国优秀硕士学位论文全文数据库》, 28 February 2007 (2007-02-28) *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103176982A (zh) * 2011-12-20 2013-06-26 中国移动通信集团浙江有限公司 一种电子图书推荐的方法及系统
CN103176982B (zh) * 2011-12-20 2016-04-27 中国移动通信集团浙江有限公司 一种电子图书推荐的方法及系统
CN102750360A (zh) * 2012-06-12 2012-10-24 清华大学 一种用于推荐系统的计算机数据挖掘方法
CN104111939A (zh) * 2013-04-18 2014-10-22 中国移动通信集团浙江有限公司 一种图书推荐方法和装置
CN104111939B (zh) * 2013-04-18 2018-08-17 中国移动通信集团浙江有限公司 一种图书推荐方法和装置
CN105138539A (zh) * 2015-07-08 2015-12-09 百度在线网络技术(北京)有限公司 信息搜索方法和系统
WO2017124262A1 (zh) * 2016-01-18 2017-07-27 杨瑛 通过刷取身份证信息推荐书籍的方法以及图书推荐系统
CN109670034A (zh) * 2018-12-25 2019-04-23 杭州铭智云教育科技有限公司 一种读者信息数据处理方法及装置
CN109684368A (zh) * 2018-12-25 2019-04-26 杭州铭智云教育科技有限公司 一种发布目标文献名录方法及装置

Similar Documents

Publication Publication Date Title
CN102254003A (zh) 一种图书推荐方法
Chan A China paradox: migrant labor shortage amidst rural labor supply abundance
Dewar et al. Planning for “megaregions” in the United States
Geyer et al. A theoretical foundation for the concept of differential urbanization
Yazdanpanah et al. A new enemy at the gate: Tackling Iran’s water super-crisis by way of a transition from government to governance
White et al. Organizational and industrial response to market liberalization: The interaction of pace, incentive and capacity to change
CN103886048A (zh) 一种基于聚类的增量数字图书推荐方法
Weller Consuming the city: Public fashion festivals and the participatory economies of urban spaces in Melbourne, Australia
Li Disruptive innovation in Chinese and Indian businesses: The strategic implications for local entrepreneurs and global incumbents
Michnik The WINGS method with multiple networks and its application to innovation projects selection
Pasek et al. The world wide web of carbon: Toward a relational footprinting of information and communications technology's climate impacts
Cicerone et al. Cultural and creative industries and regional diversification: Does size matter?
Chen et al. Improved heuristics for minimum-flip supertree construction
Götze et al. Comparing types and patterns: A context-oriented approach to densification in Switzerland and the Netherlands
CN109325674A (zh) 基于css理论的软装风格测试系统
CN109344325A (zh) 基于智能会议平板的信息的推荐方法和装置
CN109472729A (zh) 在线教育大数据技术平台
Syrett Local economic initiatives in Portugal: reality and rhetoric
Rocca et al. Governing from the middle? Understanding the making of China’s middle classes
Mardaneh et al. A guide to patterns of regional economic resilience
Wang et al. K-means clustering algorithm application in university libraries
Ternström The management of common-pool resources: Theoretical essays and empirical evidence
Dobler et al. Smart Service Development in Public-Private Settings—Assessment Methodology and Use-Cases in the Lake Constance Region
Menger Are there too many artists? The “excess supply” issue: A measurement puzzle, an increasingly flexibility-driven functional requirement and an unavoidable mismatch effect in creative activities
Kajberg REVISITING THE CONCEPT OF THE POLITICAL LIBRARY IN THE WORLD OF WEB 2.0 TECHNOLOGIES.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20111123