CN102254003A - 一种图书推荐方法 - Google Patents
一种图书推荐方法 Download PDFInfo
- Publication number
- CN102254003A CN102254003A CN2011101976101A CN201110197610A CN102254003A CN 102254003 A CN102254003 A CN 102254003A CN 2011101976101 A CN2011101976101 A CN 2011101976101A CN 201110197610 A CN201110197610 A CN 201110197610A CN 102254003 A CN102254003 A CN 102254003A
- Authority
- CN
- China
- Prior art keywords
- seq
- book
- borrowing
- sequence
- reader
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于序列模式的图书推荐方法,先以借书证号为主键,借阅时间为次键,对图书借阅数据库中的各记录进行排序,将其转换成由借阅序列数据组成的序列数据库;求出序列数据库中所有的仅包含一个图书集的频繁序列模式的大图书集,并将所有大图书集映射为一组相邻的整数;再将序列数据库中各借阅序列数据用该序列数据所包含的大图书集代替;利用大图书集挖掘出频繁序列模式集;最后在频繁序列模式集中找出最大频繁序列模式集,构造读者借书行为库,能有效地发现图书馆借阅数据库中的读者借阅行为,据此可向读者推荐相关图书。
Description
技术领域
本发明属于图书馆数据的计算机分析技术的应用领域,具体涉及一种基于序列模式的图书推荐方法。
背景技术
图书推荐是指图书馆工作人员通过各种形式和手段,有选择地将图书展示、推荐给相关读者。图书推荐是高校图书馆中的一项日常工作,该项工作的顺利开展可以有效发挥馆藏图书的效用,进一步提高图书的利用率以及图书馆的服务水平和服务意识。
目前常用的图书推荐方法是流通部管理人员根据读者的要求和自己对馆藏图书的熟悉程度,推荐相关图书以满足读者的需求,该方法要求流通部管理人员对书库藏书的类别、版本、图书内容、读者的兴趣爱好等了如指掌,对于小型图书馆而言,这也许是一件并不困难的事情。但随着图书馆藏书量及其所涉及领域的不断增多,要求图书馆工作人员全面了解书库藏书的类别和图书内容等是一件非常困难的事情,或者根本做不到,就难实现图书的展示和推荐。
发明内容
本发明针对现有图书推荐方法的可操作性差等问题,提出一种基于序列模式的图书推荐方法,能更方便、更准确地发现读者的借阅行为习惯,实现图书的自动推荐,同时又不会增加图书馆流通部管理人员的负担。
本发明提出的基于序列模式的图书推荐方法包括以下步骤:
(1) 以借书证号为主键,借阅时间为次键,对图书借阅数据库D中的各记录进行排序,将其转换成由借阅序列数据组成的序列数据库SD;
(2) 求出序列数据库SD中所有的仅包含一个图书集的频繁序列模式的大图书集L,并将所有大图书集映射为一组相邻的整数;
(3)将序列数据库SD中各借阅序列数据用该序列数据所包含的大图书集L代替;
(4)利用大图书集L挖掘出频繁序列模式集SP;
(5)在频繁序列模式集SP中找出最大频繁序列模式集MSP
(6)由最大频繁序列模式集MSP构造读者借书行为库RBBD
(7)根据读者借书行为库RBBD按如下步骤推荐图书:
扫描借阅序列数据库SD一次,查找借书证号为A.No的已有的借阅行为,其结果记为A.Seq,A.Seq=<a1,a2,…...,am>,其中m为该借阅行为的长度,ai为图书的集合,i=1,2,……,m;
计算A.Seq与读者借阅行为库中各模式t.Seq的相似度sim(A.Seq,t.Seq),t.Seq=<t1,t2,…...,tn>,n为该借阅序列数据的长度,ti为图书的集合,i=1,2,……,n;sim(A.Seq,t.Seq)的计算方法为:如果A.Seq为t.Seq的子序列,即存在i1<i2<…< im,使得a1 ,a2 ,……,am ,则sim(A.Seq,t.Seq)=1;否则sim(A.Seq,t.Seq)=0;
对于读者借书行为库RBBD中的模式t.Seq,若sim(A.Seq,t.Seq)=1,则将tk,…..., tn推荐给读者A,k= im+1,并优先推荐tk,其次是tk+1,……,最后推荐的是tn。
本发明的有益效果主要表现在:可以有效地发现图书馆借阅数据库中的读者借阅行为,据此可向读者推荐相关图书。一方面可以帮助尽量多的读者解决选书难的问题,明显减少了读者的选择范围,节省了读者的借阅时间;另一方面克服了现有图书推荐方法对流通部管理人员所提出的苛刻要求,如对书库藏书的类别、版本、图书内容、读者的兴趣爱好等了如指掌等,进一步提高了推荐方法的可操作性。
附图说明
图1是读者借书行为发现流程图;
图2是读者A的图书推荐流程图。
具体实施方式
先对数据进行预处理,以借书证号为主键,借阅时间为次键,对图书借阅数据库D中的各记录进行排序,将其转换成由借阅序列数据组成的序列数据库SD。再发现隐含在序列数据库SD中的读者借书行为,参见图1,具体方法为:
1、求出序列数据库SD中所有的大图书集L,所谓大图书集是指那些仅包含一个图书集的频繁序列模式,并将所有大图书集映射为一组相邻的整数。如求出的L为:{<{经济计量模型}>,<{数理统计}>,<{会计研究,财务管理}>},L中每个元素仅包含一个图书集,它们分别是{经济计量模型}、{数理统计}、{会计研究,财务管理},可以将此三个大图书集分别映射到1、2、3,当然也可以是5、6、7,一般情况下可以是k、k+1、k+2,k>1。
2、将序列数据库SD中各借阅序列数据用该序列数据所包含的大图书集L代替,设转换后的序列数据库为SD’。假设SD中的一条借阅序列数据为:<{经济计量模型,人工智能},{数理统计,会计研究,财务管理},则将该借阅序列数据转换为:<{1},{2,3}>,因图书集{经济计量模型,人工智能}中仅包含大图书集{经济计量模型},因而将其转换成{1};因图书集{数理统计,会计研究,财务管理}中包含了大图书集{数理统计}、{会计研究,财务管理},因而将其转换成{2,3}。
3、利用大图书集L挖掘出频繁序列模式集。
a、 CSP1={1,2,…,m};// CSP1用来存放长度为1的候选频繁序列模式,其初值即为所有的大图书集。下面的CSPk用来存放长度为k的候选频繁序列模式
f、如果集合p和q中的元素有且只有一个不同
i、扫描SD’求出CSPk中各元素的支持数或支持度;
k、end;
m、将SP中的整数转换成相应的大图书集。
4、在频繁序列模式集SP中找出最大频繁序列模式集MSP,所谓最大频繁序列模式是指它本身是频繁序列模式,但包含它的任何序列模式均为非频繁序列模式。
5、 构造读者借书行为库RBBD,RBBD是由MSP组成的,其形式为:< b1, b2,…..., bp >,p为借阅行为的长度,bi为图书的集合,i=1,2,……,p。其物理意义为:某读者在借阅了图书集b1后,过了一段时间后借阅了图书集b2,又过了一段时间后借阅了图书集b3,以此类推,最近一次所借阅图书集为bp。
发现读者借书行为的目的是为下一步的图书推荐提供依据。
参见图2,根据读者借书行为库RBBD给出相应的图书推荐方案。对于读者A而言,假设该读者的借书证号为A.No,具体推荐步骤如下:
1、扫描借阅序列数据库SD一次,查找借书证号为A.No的已有的借阅行为,其结果记为A.Seq,A.Seq=<a1,a2,…...,am>,其中m为该借阅行为的长度,ai为图书的集合,i=1,2,……,m。
2、计算A.Seq与读者借阅行为库中各模式t.Seq的相似度sim(A.Seq,t.Seq),t.Seq=<t1,t2,…...,tn>,n为该借阅序列数据的长度,ti为图书的集合,i=1,2,……,n。
sim(A.Seq,t.Seq)的计算方法为:如果A.Seq为t.Seq的子序列,即存在i1<i2<…< im,使得a1 ,a2 ,……,am ,则sim(A.Seq,t.Seq)=1;否则sim(A.Seq,t.Seq)=0。
3、对于读者借阅行为库RBBD中的模式t.Seq而言,如果sim(A.Seq,t.Seq)=1,则将tk,…..., tn推荐给读者A,k= im+1,并优先推荐tk,其次是tk+1,……,最后推荐的是tn。
以下提供本发明的一个实施例以进一步说明本发明。
实施例
以表1所示的图书借阅数据库D为例:
以借书记录的借书证号为主键,借阅时间为次键,对图书借阅数据库D中的各记录进行排序,将其转换成由借阅序列数据组成的序列数据库SD,具体结果如表2所示。
根据给定的最小支持度阈值minsup,发现借阅序列数据库SD中所有的读者借书行为。设minsup=30%,部分结果如表3所示。
如第1条行为表示有30%的读者在借阅了经济计量模型方面的书后,紧接着借阅了多元统计分析方面的书,过一段时间后又会借阅数理统计方面的书,最近一次所借阅图书集为管理学和会计研究方面的书。其它借阅行为的含义类同。
由表3可得相关推荐信息,如某读者已借阅了有关《经济计量模型》和《多元统计分析》方面的书,即该读者已有的借阅行为为:<{经济计量模型},{多元统计分析}>,分别计算该借阅行为与读者借阅行为库中各模式的相似度,计算结果分别为1、0、……。由于该借阅行为与读者借阅行为库中行为编号为1的模式之间的相似度为1,故可以把有关《数理统计》、《管理学》、《会计研究》方面的书推荐给他(她),并优先推荐《数理统计》方面的书;同样,如果某读者已借阅了有关《会计研究》和《财务管理》方面的书,那么可以把有关《管理学》方面的书推荐给他(她)。其它可以类推。这样可以有针对性地提供优质服务,变被动服务为主动服务。
Claims (2)
1.一种图书推荐方法,其特征是采用如下步骤:
(1) 以借书证号为主键,借阅时间为次键,对图书借阅数据库D中的各记录进行排序,将其转换成由借阅序列数据组成的序列数据库SD;
(2) 求出序列数据库SD中所有的仅包含一个图书集的频繁序列模式的大图书集L,并将所有大图书集映射为一组相邻的整数;
(3)将序列数据库SD中各借阅序列数据用该序列数据所包含的大图书集L代替;
(4)利用大图书集L挖掘出频繁序列模式集SP;
(5)在频繁序列模式集SP中找出最大频繁序列模式集MSP;
(6)由最大频繁序列模式集MSP构造读者借书行为库RBBD;
(7)根据读者借书行为库RBBD按如下步骤推荐图书:
扫描借阅序列数据库SD一次,查找借书证号为A.No的已有的借阅行为,其结果记为A.Seq,A.Seq=<a1,a2,…...,am>,其中m为该借阅行为的长度,ai为图书的集合,i=1,2,……,m;
计算A.Seq与读者借阅行为库中各模式t.Seq的相似度sim(A.Seq,t.Seq),t.Seq=<t1,t2,…...,tn>,n为该借阅序列数据的长度,ti为图书的集合,i=1,2,……,n;
所述sim(A.Seq,t.Seq)的计算方法为:如果A.Seq为t.Seq的子序列,即存在i1<i2<…< im,使得a1 ,a2 ,……,am ,则sim(A.Seq,t.Seq)=1;否则sim(A.Seq,t.Seq)=0;
2.根据权利要求1所述的一种图书推荐方法,其特征是:步骤(6)中读者借书行为库RBBD的形式为:< b1, b2,…..., bp >,p为借阅行为的长度,bi为图书的集合,i=1,2,……,p;其物理意义为:某读者在借阅了图书集b1后,过了一段时间后借阅了图书集b2,又过了一段时间后借阅了图书集b3,以此类推,最近一次所借阅图书集为bp。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011101976101A CN102254003A (zh) | 2011-07-15 | 2011-07-15 | 一种图书推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011101976101A CN102254003A (zh) | 2011-07-15 | 2011-07-15 | 一种图书推荐方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102254003A true CN102254003A (zh) | 2011-11-23 |
Family
ID=44981267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011101976101A Pending CN102254003A (zh) | 2011-07-15 | 2011-07-15 | 一种图书推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102254003A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102750360A (zh) * | 2012-06-12 | 2012-10-24 | 清华大学 | 一种用于推荐系统的计算机数据挖掘方法 |
CN103176982A (zh) * | 2011-12-20 | 2013-06-26 | 中国移动通信集团浙江有限公司 | 一种电子图书推荐的方法及系统 |
CN104111939A (zh) * | 2013-04-18 | 2014-10-22 | 中国移动通信集团浙江有限公司 | 一种图书推荐方法和装置 |
CN105138539A (zh) * | 2015-07-08 | 2015-12-09 | 百度在线网络技术(北京)有限公司 | 信息搜索方法和系统 |
WO2017124262A1 (zh) * | 2016-01-18 | 2017-07-27 | 杨瑛 | 通过刷取身份证信息推荐书籍的方法以及图书推荐系统 |
CN109670034A (zh) * | 2018-12-25 | 2019-04-23 | 杭州铭智云教育科技有限公司 | 一种读者信息数据处理方法及装置 |
CN109684368A (zh) * | 2018-12-25 | 2019-04-26 | 杭州铭智云教育科技有限公司 | 一种发布目标文献名录方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101452477A (zh) * | 2007-12-04 | 2009-06-10 | 索尼株式会社 | 信息处理设备、信息处理方法和程序 |
CN101529418A (zh) * | 2006-01-19 | 2009-09-09 | 维里德克斯有限责任公司 | 用于获取、分析和挖掘数据和信息的系统和方法 |
WO2011075119A1 (en) * | 2009-12-15 | 2011-06-23 | Intel Corporation | Systems, apparatus and methods using probabilistic techniques in trending and profiling and template-based predictions of user behavior in order to offer recommendations |
-
2011
- 2011-07-15 CN CN2011101976101A patent/CN102254003A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101529418A (zh) * | 2006-01-19 | 2009-09-09 | 维里德克斯有限责任公司 | 用于获取、分析和挖掘数据和信息的系统和方法 |
CN101452477A (zh) * | 2007-12-04 | 2009-06-10 | 索尼株式会社 | 信息处理设备、信息处理方法和程序 |
WO2011075119A1 (en) * | 2009-12-15 | 2011-06-23 | Intel Corporation | Systems, apparatus and methods using probabilistic techniques in trending and profiling and template-based predictions of user behavior in order to offer recommendations |
Non-Patent Citations (4)
Title |
---|
丁雪: "基于数据挖掘的图书智能推荐系统研究", 《情报理论与实践》, vol. 33, no. 5, 31 May 2010 (2010-05-31), pages 107 - 110 * |
于徽: "数据挖掘在图书馆用户行为分析中的应用研究", 《中国优秀硕士学位论文全文数据库》, 31 August 2009 (2009-08-31) * |
朱玉全 等: "《数据挖掘技术》", 30 November 2006, article "序列模式挖掘" * |
王春贺: "个性化推荐技术研究及其在数字图书馆中应用", 《中国优秀硕士学位论文全文数据库》, 28 February 2007 (2007-02-28) * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103176982A (zh) * | 2011-12-20 | 2013-06-26 | 中国移动通信集团浙江有限公司 | 一种电子图书推荐的方法及系统 |
CN103176982B (zh) * | 2011-12-20 | 2016-04-27 | 中国移动通信集团浙江有限公司 | 一种电子图书推荐的方法及系统 |
CN102750360A (zh) * | 2012-06-12 | 2012-10-24 | 清华大学 | 一种用于推荐系统的计算机数据挖掘方法 |
CN104111939A (zh) * | 2013-04-18 | 2014-10-22 | 中国移动通信集团浙江有限公司 | 一种图书推荐方法和装置 |
CN104111939B (zh) * | 2013-04-18 | 2018-08-17 | 中国移动通信集团浙江有限公司 | 一种图书推荐方法和装置 |
CN105138539A (zh) * | 2015-07-08 | 2015-12-09 | 百度在线网络技术(北京)有限公司 | 信息搜索方法和系统 |
WO2017124262A1 (zh) * | 2016-01-18 | 2017-07-27 | 杨瑛 | 通过刷取身份证信息推荐书籍的方法以及图书推荐系统 |
CN109670034A (zh) * | 2018-12-25 | 2019-04-23 | 杭州铭智云教育科技有限公司 | 一种读者信息数据处理方法及装置 |
CN109684368A (zh) * | 2018-12-25 | 2019-04-26 | 杭州铭智云教育科技有限公司 | 一种发布目标文献名录方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102254003A (zh) | 一种图书推荐方法 | |
Chan | A China paradox: migrant labor shortage amidst rural labor supply abundance | |
Dewar et al. | Planning for “megaregions” in the United States | |
Geyer et al. | A theoretical foundation for the concept of differential urbanization | |
Yazdanpanah et al. | A new enemy at the gate: Tackling Iran’s water super-crisis by way of a transition from government to governance | |
White et al. | Organizational and industrial response to market liberalization: The interaction of pace, incentive and capacity to change | |
CN103886048A (zh) | 一种基于聚类的增量数字图书推荐方法 | |
Weller | Consuming the city: Public fashion festivals and the participatory economies of urban spaces in Melbourne, Australia | |
Li | Disruptive innovation in Chinese and Indian businesses: The strategic implications for local entrepreneurs and global incumbents | |
Michnik | The WINGS method with multiple networks and its application to innovation projects selection | |
Pasek et al. | The world wide web of carbon: Toward a relational footprinting of information and communications technology's climate impacts | |
Cicerone et al. | Cultural and creative industries and regional diversification: Does size matter? | |
Chen et al. | Improved heuristics for minimum-flip supertree construction | |
Götze et al. | Comparing types and patterns: A context-oriented approach to densification in Switzerland and the Netherlands | |
CN109325674A (zh) | 基于css理论的软装风格测试系统 | |
CN109344325A (zh) | 基于智能会议平板的信息的推荐方法和装置 | |
CN109472729A (zh) | 在线教育大数据技术平台 | |
Syrett | Local economic initiatives in Portugal: reality and rhetoric | |
Rocca et al. | Governing from the middle? Understanding the making of China’s middle classes | |
Mardaneh et al. | A guide to patterns of regional economic resilience | |
Wang et al. | K-means clustering algorithm application in university libraries | |
Ternström | The management of common-pool resources: Theoretical essays and empirical evidence | |
Dobler et al. | Smart Service Development in Public-Private Settings—Assessment Methodology and Use-Cases in the Lake Constance Region | |
Menger | Are there too many artists? The “excess supply” issue: A measurement puzzle, an increasingly flexibility-driven functional requirement and an unavoidable mismatch effect in creative activities | |
Kajberg | REVISITING THE CONCEPT OF THE POLITICAL LIBRARY IN THE WORLD OF WEB 2.0 TECHNOLOGIES. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20111123 |