CN104376021A - 文件推荐系统及方法 - Google Patents
文件推荐系统及方法 Download PDFInfo
- Publication number
- CN104376021A CN104376021A CN201310357844.7A CN201310357844A CN104376021A CN 104376021 A CN104376021 A CN 104376021A CN 201310357844 A CN201310357844 A CN 201310357844A CN 104376021 A CN104376021 A CN 104376021A
- Authority
- CN
- China
- Prior art keywords
- file
- correlation rule
- reading
- user
- threshold values
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/2866—Architectures; Arrangements
- H04L67/30—Profiles
- H04L67/306—User profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/535—Tracking the activity of the user
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种文件推荐方法,该方法包括:收集所有用户在一个时间段内的阅读行为,建立关联分析表;根据关联规则数据挖掘演算法对上述关联分析表进行演算,提取不同类别文件之间关联阅读的关联规则;根据用户当前阅读文件的类别,查询包括该文件类别的关联规则,依据关联规则推荐其他类别的文件给用户。此外,本发明还提供一种文件推荐系统。
Description
技术领域
本发明涉及文字采矿和信息挖掘技术,尤其涉及文件推荐系统及方法。
背景技术
借助于互联网的快速普及,人们每天通过网络可以浏览各种信息资讯。然而信息资讯日益膨胀,庞大的信息量反而会导致人们无法从过多的网页或文件中快速筛选到符合个人需求的信息。
目前大多数的新闻门户网站或是资讯类系统,根据用户已经阅读的网页或是文件中的关键词,利用关键词找出该用户的阅读需求以推送出相关新闻或文件。该方法以关键词作为推送的依据,推送的新闻或文件是离散的,没有相关性。
发明内容
鉴于上述内容,有必要提供一种文件推荐系统及方法,可以挖掘不同文件之间关联阅读的规则,推送相关联的文件给用户。
所述文件推荐系统,该系统包括:资料收集模块,用于收集所有用户在一个时间段内的阅读行为,建立关联分析表;规则提取模块,用于根据关联规则挖掘算法对上述关联分析表进行演算,提取不同类别文件之间关联阅读的关联规则;及文件推荐模块,用于根据用户当前阅读文件的类别,查询包括该文件类别的关联规则,依据关联规则推荐其他类别的文件给用户。
所述文件推荐方法,该方法包括:收集所有用户在一个时间段内的阅读行为,建立关联分析表;根据关联规则挖掘算法对上述关联分析表进行演算,提取不同类别文件之间关联阅读的关联规则;根据用户当前阅读文件的类别,查询包括该文件类别的关联规则,依据关联规则推荐其他类别的文件给用户。
相比于现有技术,本发明中所述的文件推荐系统及方法,能够有效分析所有用户的阅读行为,利用关联规则数据挖掘演算法提取不同文件之间关联阅读的规则,当用户阅读某类文件时,根据关联规则推荐该类文件相关联的文件给用户。
附图说明
图1是本发明所述文件推荐系统的较佳实施例的运行环境图。
图2是本发明所述文件推荐系统的较佳实施例的功能模块图。
图3是本发明所述文件推荐方法的方法流程图。
图4是本发明中关联分析表的示意图。
图5是利用先验演算法提取出的关联规则的示意图。
主要元件符号说明
服务器 | 1 |
数据库 | 2 |
用户终端设备 | 3 |
文件推荐系统 | 10 |
处理器 | 20 |
存储器 | 30 |
资料收集模块 | 101 |
规则提取模块 | 102 |
文件推荐模块 | 103 |
定期更新模块 | 104 |
如下具体实施方式结合上述附图进一步说明本发明的技术方案。
具体实施方式
参阅图1所示,是本发明所述文件推荐系统的较佳实施例的运行环境图。所述文件推荐系统10运行于服务器1中。所述服务器1通过互联网或是局域网和一个数据库2以及多个用户终端3进行通讯连接。所述服务器1是一个应用程序服务器,提供网络服务和应用程序服务,处理用户终端3发送的服务请求等。所述数据库2用于存储文件和各类表数据等。所述用户终端3可以是个人电脑或是平板电脑等。
本较佳实施例中,所述服务器1提供一个文件阅读平台(例如新闻门户网站),用户注册该平台后,可以登陆该平台自由阅读各类文件。
参阅图2所示,是本发明所述文件推荐系统的较佳实施例的功能模块图。所述文件推荐系统10的程序化代码存储于服务器1的存储器30中,由处理器20控制执行。所述文件推荐系统10包括多个由程序代码组成的功能模块:资料收集模块101、规则提取模块102、文件推荐模块103和定期更新模块104。所述功能模块是完成特定功能的程序段,比程序更适合描述软件在处理器中的处理过程。以下结合图3的方法流程图,进一步详细说明各模块功能。
本较佳实施例中,所述文件推荐系统10收集所有用户的阅读行为,利用Apriori演算法(Apriori Algorithm,先验算法)挖掘不同文件之间关联阅读的关联规则,当用户在阅读某类文件后,根据提取的关联规则,推送具有关联性的另一类别的文件给用户。
步骤S01,资料收集模块101收集所有用户在一个时间段内(如90天)的阅读行为,提取出阅读行为中的用户ID、日期、文件ID、文件类别和阅读时间,建立如图4所示的关联分析表。
本较佳实施例中,服务器1会记录每个用户每次登陆文件阅读平台后的所有阅读行为(也称之为历史记录)。所述阅读行为包括用户ID、登陆时间、阅读文件ID、文件类别、文件字数、阅读时间(即阅读文件的时间点,如12:00等)、阅读时长(即阅读文件的时长且以分钟为单位计时)、退出时间等信息。所述文件ID为区分文件的唯一标识。所述文件类别是以一定的划分标准如文件资料来源或文件关键词等对文件的划分,且不同类别分别以不同的数字编号加以区分,本较佳实施例中,数据库2的文件以文件的关键词划分类别,如“三星”、“诺基亚”、“谷歌”、“百度”、“腾讯”、“联想”、“东芝”、“郭敬明”、“韩寒”等,且分别指定不同数字编号如11、16、22、23、50、60、63、90、96等。
步骤S02,规则提取模块102根据先验演算法(Apriori算法)对上述关联分析表进行演算,提取不同类别文件之间关联阅读的关联规则(Association Rule)。
本较佳实施例中,利用微软公司的SQL Server Analysis Service中实现Apriori算法的购物篮分析模型(Market Basket Analysis),对关联分析表进行演算,提取出不同文件类别之间关联阅读的关联规则。
规则提取模块102利用该购物篮分析模型提取关联规则的过程为:
1)设定Apriori算法的基本参数:设定最小项目组合数、最小支持度阀值(support)及最小置信度阀值(confidence);
2)导入关联分析表作为购物篮分析模型的输入,指定用户ID栏位和日期栏位共同作为主键(Key值)即以一天为分析单位,每个用户在一天内阅读的所有文件为一个项目集合,指定文件类别栏位为关联规则的数据项;
3)利用Apriori算法对关联分析表进行演算,筛选出满足最小支持度阀值和最小置信度阀值的项目组合(即数据项组合),提取并输出各数据项之间的关联规则,即不同类别文件之间关联阅读的关联规则。
本较佳实施例中,设定最小项目组合数为2、最小支持度阀值为0.1、最小置信度阀值为0.2,则经过Apriori算法演算后输出满足条件的关联规则。如图5所示,文件类别11和16存在关联阅读的关联规则即用户阅读类别11的文件后,会阅读类别16的文件,依据本较佳实施例中文件类别的划分依据,该关联规则是指当阅读了有关三星公司的新闻或文件后,用户随后会阅读有关诺基亚公司的新闻或文件。
步骤S03,文件推荐模块103根据用户当前阅读文件的类别,查询包含该文件类别的关联规则,依据关联规则,推荐该类别文件相关联的其他类别的文件给用户。
如图5所示,文件类别22和23存在关联阅读的规则。例如,若用户当前阅读一篇关于谷歌的新闻或文件,文件推荐模块103获取用户当前阅读文件的类别为22,根据该文件类别22查询包含文件类别22的所有关联规则,推荐文件类别为23的时间最近的新闻或文件给用户。
步骤S04,定期更新模块104设定周期性的关联规则提取排程,每间隔一定时间周期(如90天),抓取该时间周期内的所有用户的阅读行为,重新提取该时间周期内的不同类别文件之间关联阅读的关联规则。
由于用户阅读习惯的变更及用户数量的增减等原因,导致不同类别文件之间关联阅读的关联规则会有所调整,本较佳实施例中,定期更新模块104设定了周期性的排程,重新执行步骤S01、S02,根据最近一个时间段内所有用户的阅读行为,重新提取关联规则。本较佳实施例中,设定相隔90天的时间执行关联规则提取排程,在执行排程时,抓取前90天内的所有用户的阅读行为,利用先验演算法重新提取关联规则。
本较佳实施例中,利用先验演算法(Apriori演算法)从所有用户一段时间的阅读行为中提取不同文件之间关联阅读的关联规则,根据该提取的关联规则,在用户阅读某类文件时,推荐关联文件给用户。其他实施例中,还可以利用FP-Growth演算法或Eclat演算法等其他关联规则数据挖掘的演算法,从所有用户一段时间内的阅读行为中提取关联规则。
最后需要指出,以上较佳实施例仅用于说明本发明的技术方案而非限制,尽管参照以上较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,都不应脱离本发明的精神和范围。
Claims (6)
1.一种文件推荐系统,运行于服务器中,其特征在于,该系统包括:
资料收集模块:用于收集所有用户在一个时间段内的阅读行为,建立关联分析表;
规则提取模块:用于根据关联规则数据挖掘演算法对上述关联分析表进行演算,提取不同类别文件之间关联阅读的关联规则;及
文件推荐模块:用于根据用户当前阅读文件的类别,查询包括该文件类别的关联规则,依据关联规则推荐其他类别的文件给用户。
2.如权利要求1所述的文件推荐系统,其特征在于,该系统还包括一个定期更新模块,用于设定周期性的关联规则提取排程,每间隔一定时间周期,抓取该时间周期内的所有用户的阅读行为,重新提取该时间周期内的不同类别文件之间关联阅读的关联规则。
3.如权利要求1所述的文件推荐系统,其特征在于,所述规则提取模块用于提取不同类别文件之间关联阅读的关联规则:
设定先验演算法的基本参数,包括最小项目组合数、最小支持度阀值和最小置信度阀值;
将关联分析表作为先验演算法的输入,指定用户ID栏位和日期栏位共同作为主键,指定文件类别栏位为关联规则的数据项;
利用先验演算法对关联分析进行演算,筛选出满足最小支持度阀值和最小置信度阀值的项目组合,提取并输出各数据项之间的关联规则。
4.一种文件推荐方法,其特征在于,该方法包括:
资料收集步骤:收集所有用户在一个时间段内的阅读行为,建立关联分析表;
规则提取步骤:根据关联规则数据挖掘演算法对上述关联分析表进行演算,提取不同类别文件之间关联阅读的关联规则;及
文件推荐步骤:根据用户当前阅读文件的类别,查询包括该文件类别的关联规则,依据关联规则推荐其他类别的文件给用户。
5.如权利要求4所述的文件推荐方法,其特征在于,该方法还包括定期更新步骤:设定周期性的关联规则提取排程,每间隔一定时间周期,抓取该时间周期内的所有用户的阅读行为,重新提取该时间周期内的不同类别文件之间关联阅读的关联规则。
6.如权利要求4所述的文件推荐方法,其特征在于,所述规则提取步骤包括:
设定先验演算法的基本参数,包括最小项目组合数、最小支持度阀值和最小置信度阀值;
将关联分析表作为先验演算法的输入,指定用户ID栏位和日期栏位共同作为主键,指定文件类别栏位为关联规则的数据项;
利用先验演算法对关联分析进行演算,筛选出满足最小支持度阀值和最小置信度阀值的项目组合,提取并输出各数据项之间的关联规则。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310357844.7A CN104376021A (zh) | 2013-08-16 | 2013-08-16 | 文件推荐系统及方法 |
TW102129997A TW201508509A (zh) | 2013-08-16 | 2013-08-22 | 文檔推薦系統及方法 |
US14/460,614 US20150052101A1 (en) | 2013-08-16 | 2014-08-15 | Electronic device and method for transmitting files |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310357844.7A CN104376021A (zh) | 2013-08-16 | 2013-08-16 | 文件推荐系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104376021A true CN104376021A (zh) | 2015-02-25 |
Family
ID=52467564
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310357844.7A Pending CN104376021A (zh) | 2013-08-16 | 2013-08-16 | 文件推荐系统及方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20150052101A1 (zh) |
CN (1) | CN104376021A (zh) |
TW (1) | TW201508509A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017063420A1 (zh) * | 2015-10-12 | 2017-04-20 | 百度在线网络技术(北京)有限公司 | 用于确定用户需求的方法与装置 |
CN109815368A (zh) * | 2018-12-10 | 2019-05-28 | 百度在线网络技术(北京)有限公司 | 资源推荐方法、装置、设备及计算机可读存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104750845A (zh) * | 2015-04-09 | 2015-07-01 | 重庆邮电大学 | 一种基于Apriori算法的图书电子资源联合编目方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090276764A1 (en) * | 2008-05-05 | 2009-11-05 | Ghorbani Ali-Akbar | High-level hypermedia synthesis for adaptive web |
CN101697162A (zh) * | 2009-10-22 | 2010-04-21 | 杭州因豪信息科技开发有限公司 | 一种智能化推荐点菜方法及系统 |
CN102902740A (zh) * | 2012-09-12 | 2013-01-30 | 北京航空航天大学 | Web服务组合推荐方法及设备 |
CN102945240A (zh) * | 2012-09-11 | 2013-02-27 | 杭州斯凯网络科技有限公司 | 一种支持分布式计算的关联规则挖掘算法实现方法及装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1493118A1 (en) * | 2002-04-10 | 2005-01-05 | Accenture Global Services GmbH | Determination of attributes based on product descriptions |
US6915297B2 (en) * | 2002-05-21 | 2005-07-05 | Bridgewell, Inc. | Automatic knowledge management system |
US7698170B1 (en) * | 2004-08-05 | 2010-04-13 | Versata Development Group, Inc. | Retail recommendation domain model |
US20070168350A1 (en) * | 2006-01-17 | 2007-07-19 | Tom Utiger | Management of non-traditional content repositories |
US9225772B2 (en) * | 2011-09-26 | 2015-12-29 | Knoa Software, Inc. | Method, system and program product for allocation and/or prioritization of electronic resources |
US8965830B2 (en) * | 2012-05-17 | 2015-02-24 | Xerox Corporation | Systems and methods for self-adaptive episode mining under the threshold using delay estimation and temporal division |
US20140074649A1 (en) * | 2012-09-13 | 2014-03-13 | Coupons.Com Incorporated | Grocery recommendation engine |
-
2013
- 2013-08-16 CN CN201310357844.7A patent/CN104376021A/zh active Pending
- 2013-08-22 TW TW102129997A patent/TW201508509A/zh unknown
-
2014
- 2014-08-15 US US14/460,614 patent/US20150052101A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090276764A1 (en) * | 2008-05-05 | 2009-11-05 | Ghorbani Ali-Akbar | High-level hypermedia synthesis for adaptive web |
CN101697162A (zh) * | 2009-10-22 | 2010-04-21 | 杭州因豪信息科技开发有限公司 | 一种智能化推荐点菜方法及系统 |
CN102945240A (zh) * | 2012-09-11 | 2013-02-27 | 杭州斯凯网络科技有限公司 | 一种支持分布式计算的关联规则挖掘算法实现方法及装置 |
CN102902740A (zh) * | 2012-09-12 | 2013-01-30 | 北京航空航天大学 | Web服务组合推荐方法及设备 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017063420A1 (zh) * | 2015-10-12 | 2017-04-20 | 百度在线网络技术(北京)有限公司 | 用于确定用户需求的方法与装置 |
CN109815368A (zh) * | 2018-12-10 | 2019-05-28 | 百度在线网络技术(北京)有限公司 | 资源推荐方法、装置、设备及计算机可读存储介质 |
US11153653B2 (en) | 2018-12-10 | 2021-10-19 | Baidu Online Network Technology (Beijing) Co., Ltd. | Resource recommendation method, device, apparatus and computer readable storage medium |
Also Published As
Publication number | Publication date |
---|---|
US20150052101A1 (en) | 2015-02-19 |
TW201508509A (zh) | 2015-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110198310B (zh) | 一种网络行为反作弊方法、装置及存储介质 | |
CN106250513B (zh) | 一种基于事件建模的事件个性化分类方法及系统 | |
US11816172B2 (en) | Data processing method, server, and computer storage medium | |
CN107862022B (zh) | 文化资源推荐系统 | |
CN107800591B (zh) | 一种统一日志数据的分析方法 | |
CN107895011B (zh) | 会话信息的处理方法、系统、存储介质和电子设备 | |
CN102880501A (zh) | 应用推荐的实现方法、装置和系统 | |
CN107515915A (zh) | 基于用户行为数据的用户标识关联方法 | |
CN106021583B (zh) | 页面流量数据的统计方法及其系统 | |
CN104951539A (zh) | 互联网数据中心有害信息监测系统 | |
CN104394118A (zh) | 一种用户身份识别方法及系统 | |
CN110674144A (zh) | 用户画像生成方法、装置、计算机设备和存储介质 | |
CN112632405B (zh) | 一种推荐方法、装置、设备及存储介质 | |
CN110362607B (zh) | 异常号码识别方法、装置、计算机设备及存储介质 | |
CN107944032B (zh) | 用于生成信息的方法和装置 | |
CN112394908A (zh) | 埋点页面自动生成的方法、装置、计算机设备及存储介质 | |
CN111310052A (zh) | 用户画像构建方法、装置及计算机可读存储介质 | |
CN104391843A (zh) | 文件推荐系统及方法 | |
CN111666298A (zh) | 基于flink的用户服务类别检测方法、装置、计算机设备 | |
CN112818230A (zh) | 内容推荐方法、装置、电子设备和存储介质 | |
CN114186760A (zh) | 一种企业稳健运营的分析方法、系统及可读存储介质 | |
CN111177481A (zh) | 用户标识映射方法及装置 | |
CN104376021A (zh) | 文件推荐系统及方法 | |
CN110442614B (zh) | 元数据的搜索方法及装置、电子设备、存储介质 | |
CN110737691B (zh) | 用于处理访问行为数据的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150225 |