CN105045864B - 一种数字化资源个性化推荐方法 - Google Patents

一种数字化资源个性化推荐方法 Download PDF

Info

Publication number
CN105045864B
CN105045864B CN201510408131.8A CN201510408131A CN105045864B CN 105045864 B CN105045864 B CN 105045864B CN 201510408131 A CN201510408131 A CN 201510408131A CN 105045864 B CN105045864 B CN 105045864B
Authority
CN
China
Prior art keywords
page
user
word
label
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510408131.8A
Other languages
English (en)
Other versions
CN105045864A (zh
Inventor
谢波
姜波
刘洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chen Hao
Chen Jiejue
Dongguan Xianchen Information Technology Co.,Ltd.
Huaihe Energy Zhunnan Panji Power Generation Co ltd
Mao Xiangyun
Pan Lijuan
Wang Xianquan
Yang Xiangrong
Zang Runze
Zheng Xiaoyong
Original Assignee
Zhejiang Gongshang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University filed Critical Zhejiang Gongshang University
Priority to CN201510408131.8A priority Critical patent/CN105045864B/zh
Publication of CN105045864A publication Critical patent/CN105045864A/zh
Application granted granted Critical
Publication of CN105045864B publication Critical patent/CN105045864B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

本发明公开了一种数字化资源个性化推荐方法,通过脚本获取用户浏览数字化资源历史记录,对其进行分析,结合页面标签,产生推荐结果进行个性化推荐。手工为页面标注标签,形成标签库;对于未标注页面,进行页面相似度匹配,在已标注页面中找出最相似页面,将该页面标签赋予未标注页面;统计用户历史记录计算标签访问频次,对用户进行个性化推荐。本发明采用人工标注的方式为页面标注标签,通过页面相似度匹配自动为未标注页面标注标签,生成的页面标签更能够体现页面内容,更能够体现用户的潜在兴趣;用户访问网站已存在于网络中,资源更加丰富和多样,因此,本发明具有推荐精确和多样的特点,更能体现出用户的个性化。

Description

一种数字化资源个性化推荐方法
技术领域
本发明属于网络应用个性化推荐技术领域,涉及数字化资源个性化推荐方法。
背景技术
随着互联网快速发展,资源数量爆炸性增长,在面对如此浩瀚的资源海洋时,用户很难在短时间内找到自己真正需要的资源。因此,造成了信息迷航与信息过载的问题。信息迷航是指用户在复杂的网络信息空间中浏览信息时迷失方向,不清楚所要找的资源在哪里,无法返回到某个节点,在寻找的过程中忘记自己的初衷目的。而信息过载则是由于Internet提供的复杂且广泛的资源,致使资源的使用者常常受制于认知能力和各方面知识的约束,难以正确的获取和使用网络上给予的资源。
数字化资源与传统资源有所区别,它是文本、图片、音频、视频、动画等多种资源的结合,并提供丰富的交互能力,能够激发用户通过自主、合作、创造的方式来寻找和处理资源。数字化资源相比传统资源有以下优势:1)扩展性,用户学习数字化资源不受时空和传递呈现方式的限制,通过多种设备,可以获得高质量的数字化资源;2)多样式,多种呈现形式,丰富的内容表现力,激发用户的学习动力;3)共享性,不同用户可以共享数字化资源,极大地提高学习效率。
用户在网络上检索相关数字化资源时,需要花费大量的时间才能找到自己需要的资源。这种浏览大量无关的信息无疑会使淹没在信息过载和信息迷航问题中的用户迷茫,为了解决这些问题,个性化推荐方法应运而生。个性化推荐方法是建立在海量数据挖掘基础上的一种智能方法,充分利用用户在网站上访问记录,对用户行为进行用户偏好分析,帮助网站为其用户提供个性化的服务。
个性化推荐是根据用户的兴趣特点和行为记录,向用户推荐用户感兴趣的资源。个性化推荐技术中,个性化是指使资源具有个性化的属性。主要是在非一般大众化的基础上增加独特、拥有本身特点的需要,使资源具有个性,或者使其凸显个性。个性化一般包含两层含义,第一、用户个性化的过程,这是需要经过培养逐步形成的;第二,资源个性化的过程,资源的个性化以特定的方式得到体现和展示,此个性化的过程是每个用户都应拥有的潜在需求的过程。
在目前的推荐方法中,标签逐渐成为一种表现用户特征的重要方式。标签类似于一种关键字标记,来源于标注者对资源主观感受的概括,被用于描述资源,当一个资源被标注多个标签后,其相对于其他资源而言,已具有个性化的特点;用户在长期学习数字化资源的过程中,会形成属于个人的标签库,其相对其他用户而言,已拥有独特的特征,在不同用户学习相同资源后,其又拥有共性,而个性化推荐方法就是利用这些特点向用户推荐个性化的资源和用户。
发明内容
本发明的目的在于克服现有技术不足,使用能准确表示页面内容的标签,更能体现用户的潜在兴趣,并自动为未访问页面标注标签,使得推荐结果更具人性化。
本发明的目的是通过以下技术方案来实现的:一种数字化资源个性化推荐方法,通过脚本获取用户浏览数字化资源历史记录,对其进行分析,结合页面标签,产生推荐结果进行个性化推荐,具体包括以下步骤:
(1)标注标签,获取指定网站的网站地图,分析地图文件获得页面URL,为每个URL标注标签,具体包括以下子步骤:
(1.1)在获取网站全部页面URL后,去掉无效页面,比如脚本文件URL,样式表文件URL 以及一些错误页面;
(1.2)采用手工的方式为每个URL标注至多10个最能代表页面内容的标签,保存在数据库中,生成网页标签表;
(2)数据获取,通过脚本获取用户浏览网站的访问记录,具体包括以下子步骤:
(2.1)用户设置浏览器代理,通过代理服务器访问网站;
(2.2)代理服务器根据预先设置的规则文件,在符合规则的页面中嵌入脚本,脚本在每次用户浏览页面时,将用户ID,页面URL、页面标题、页面访问时间、上一跳地址返回给服务器,保存在数据库中,生成访问记录表;
(3)页面相似度匹配,若用户当前访问页面不在网页标签表中,从网页标签表中获取与当前用户访问页面最相似的页面,具体包括以下子步骤:
(3.1)网页关键字提取,获取当前访问页面内容,去掉HTML标签,获得页面中纯文本内容;利用中文分词工具,去掉叹词、副词、形容词、介词等无意义的词,得到n个有效词(w1,w2,...,wk,...,wn),统计每个有效词wk在该网页中出现的次数用每个有效词出现的次数除以有效词数n,得到每个有效词在网页中出现的词频数扫描网页标签表中所有m个页面,分别统计包含有效词wk的网页数用网站网页总数m除以包含该词的网页数,得到包含有效词wk的网页占网页总数的反比例用TF与IDF的乘积相乘得到有效词wk的TF‐IDF,即按照这个过程,得到n个有效词的TF‐IDF,将这些有效词的TF‐IDF按照降序排列,按顺序取前p个作为本页面的关键字;
(3.2)从网页标签表中m个网页中取出一个页面,按照步骤(3.1)获取页面的p个关键字,将两个页面的关键字合并为一个集合(t1,t2,...tk,...tr),其中p≤r≤2p,计算集合中关键字tk在两个页面中的词频数进一步将每个关键字词频除以所有关键字总的词频数,即获得每个关键字的相对词频
(3.3)根据步骤(3.2)计算得出的相对词频,得到两个页面的词频分量计算两个分量的余弦相似度;
(3.4)依次计算当前访问页面和网页标签表中所有页面的余弦相似度,余弦相似度最大,即为当前访问页面最相似页面;
(4)个性化推荐,结合网页标签表和访问记录表,统计该用户访问过的s个标签(l1,l2,...lk,...ls)以及每个标签的访问频次将每个标签访问除以所有标签总的访问频次,即得到每个标签的相对访问频次;根据相对访问频次按照降序排列,计算包含标签lk的页面的访问次数,按照降序排列,生成基于标签lk的推荐列表,合并s 个标签生成的推荐列表,将最终推荐结果推荐给用户。
进一步地,步骤(2)生成的访问记录表,用户所访问网站是互联网已存在的,通过用户设置代理的方式,代理服务器会将预先设置的脚本嵌入在符合规则的网页中,脚本获取用户在该网站上的访问记录并将其返回到服务器,保存在数据库中;步骤(1)中生成的网页标签表,统计网页标签表可以获得该领域的标签库,在之后访问未标注页面时,选取最相似页面的标签作为该页面的标签,结合步骤(2)生成的访问记录表和网页标签表,用户访问的页面都已标注标签。
本发明的有益效果是:本发明方法通过脚本获取用户浏览数字化资源历史记录,对其进行分析,结合页面标签,产生推荐结果进行个性化推荐。手工为页面标注标签,形成标签库;对于未标注页面,进行页面相似度匹配,在已标注页面中找出最相似页面,将该页面标签赋予未标注页面;统计用户历史记录计算标签访问频次,对用户进行个性化推荐。本发明采用人工标注的方式为页面标注标签,通过页面相似度匹配自动为未标注页面标注标签,生成的页面标签更能够体现页面内容,更能够体现用户的潜在兴趣;用户访问网站已存在于网络中,资源更加丰富和多样,因此,本发明具有推荐精确和多样的特点,更能体现出用户的个性化。
附图说明
图1本发明方法的流程图;
图2本发明方法的页面相似度匹配流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
如图1所示,本发明一种数字化资源个性化推荐方法,包括以下步骤:
(1)标注标签,获取指定网站的网站地图,分析地图文件获得页面URL,为每个URL标注标签,包括以下子步骤:
(1.1)利用网站地图工具获取网站www.w3school.com.cn的网站地图,分析工具生成的 XML文件,得到该网站所有的页面URL;去掉样式文件URL、脚本文件URL以及一些错误页面,最终获得该网站3975个有效页面;
(1.2)采用人工标注标签的方式,通过浏览每个页面,取能够准确描述该页面的标签,至多10个,保存在数据库中,生成网页标签表;
(2)数据获取,通过脚本获取用户浏览网站的访问记录,具体包括下一子步骤:
(2.1)用户设置浏览器代理;通过代理服务器访问网站;
(2.2)在服务器上安装一个带过滤功能的代理服务器,其基本工作原理为:在配置文件中设置规则,匹配则向页面中添加脚本,该脚本用于获取用户访问记录,即用户ID,页面URL、页面标题、页面访问时间、上一跳地址,向服务器发送请求将访问记录保存在数据库中,生成访问记录表;用户在浏览器中输入URL,代理服务器收到请求,代理服务器向访问网站服务器发送请求;网站服务器收到请求,返回所请求页面;代理服务器收到页面,在配置文件中匹配该网站的规则,成功,则应用规则,在页面中添加脚本;用户浏览器收到已经添加过脚本的页面,脚本成功获取用户访问记录;
(3)页面相似度匹配,检测用户当前访问页面是否在网页标签表中,若不在,则从网页标签表中获取与当前用户访问页面最相似的页面,如图2所示,具体包括以下子步骤:
(3.1)网页关键字提取,用户输入URL访问页面P1,去掉HTML标签,获得纯文本内容;利用中文分词工具,去掉叹词、副词、形容词、介词等无意义的词,比如得到100个有效词,统计这200个有效词在页面中出现的次数,比如该页面颜色这个有效词出现的次数为10,因此可以计算颜色这个有效词出现的词频数为TF=10/200=0.05,扫描网页标签表中3975个页面,统计包含有颜色这个有效词词出现的页面数,比如有150个页面,用网站网页总数除以包含该有效词的网页数并取对数,即最终TF‐IDF=0.05×1.4232=0.07116,按照这种计算方法,计算出这100个有效词的TF‐IDF,将最终值按照降序排列,按顺序取前5个作为该页面的关键字,比如为颜色,背景,样式,图像,文本;
(3.2)从网页标签表中取出一个页面P2,按照步骤(3.1)所述方法获取页面5个关键字,比如为颜色,文本,超链接,锚,字体,将这两个关键字合并为一个集合,即(颜色,背景,样式,文本,图像,超链接,锚,字体),计算这8个关键字在页面P1和P2中出现的次数,进一步将每个有效词词频除以所有有效词总的词频数,得到这8个关键字的相对词频;
(3.3)根据步骤(3.2)计算得出的相对词频,得到这两个页面的词频分量,计算这两个分量的余弦相似性;
(3.4)依次计算P1和网页标签表中其他页面的余弦相似度,余弦相似度最大,即为当前访问页面最相似页面;
(4)个性化推荐,结合网页标签表和访问记录表,统计该用户访问过的s个标签(l1,l2,...lk,...ls)以及每个标签的访问频次将每个标签访问除以所有标签总的访问频次,即得到每个标签的相对访问频次,比如标签CSS的相对访问频次是0.42,每次要向用户推荐15个页面,则本次需向用户推荐15×0.42=6.3,取整即为6个包含CSS标签的页面;统计访问记录表中包含CSS标签的页面的访问次数,按照降序排列,按顺序取前6个页面产生推荐列表;依次计算s个标签生成的列表,如果两个标签中有相同页面,则顺延去下一个页面;将这些推荐列表合并,将最终推荐结果呈现给用户。

Claims (1)

1.一种数字化资源个性化推荐方法,其特征在于,包括以下步骤:
(1)标注标签,获取指定网站的网站地图,分析地图文件获得页面URL,为每个URL标注标签,具体包括以下子步骤:
(1.1)在获取网站全部页面URL后,去掉无效页面,所述无效页面包括:脚本文件URL,样式表文件URL以及一些错误页面;
(1.2)采用手工的方式为每个URL标注至多10个最能代表页面内容的标签,保存在数据库中,生成网页标签表;
(2)数据获取,通过脚本获取用户浏览网站的访问记录,具体包括以下子步骤:
(2.1)用户设置浏览器代理,通过代理服务器访问网站;
(2.2)代理服务器根据预先设置的规则文件,在符合规则的页面中嵌入脚本,脚本在每次用户浏览页面时,将用户ID、页面URL、页面标题、页面访问时间、上一跳地址返回给服务器,保存在数据库中,生成访问记录表;
(3)页面相似度匹配,若用户当前访问页面不在网页标签表中,从网页标签表中获取与当前用户访问页面最相似的页面,具体包括以下子步骤:
(3.1)网页关键字提取,获取当前访问页面内容,去掉HTML标签,获得页面中纯文本内容;利用中文分词工具,去掉叹词、副词、形容词、介词无意义的词,得到n个有效词(w1,w2,...,wk,...,wn),统计每个有效词wk在该网页中出现的次数用每个有效词出现的次数除以有效词数n,得到每个有效词在网页中出现的词频数扫描网页标签表中所有m个页面,分别统计包含有效词wk的网页数用网站网页总数m除以包含该词的网页数,得到包含有效词wk的网页占网页总数的反比例用TF与IDF的乘积相乘得到有效词wk的TF-IDF,即按照这个过程,得到n个有效词的TF-IDF,将这些有效词的TF-IDF按照降序排列,按顺序取前p个作为本页面的关键字;
(3.2)从网页标签表中m个网页中取出一个页面,按照步骤(3.1)获取页面的p个关键字,将两个页面的关键字合并为一个集合(t1,t2,...tk,...tr),其中p≤r≤2p,计算集合中关键字tk在两个页面中的词频数进一步将每个关键字词频除以所有关键字总的词频数,即获得每个关键字的相对词频
(3.3)根据步骤(3.2)计算得出的相对词频,得到两个页面的词频分量计算两个分量的余弦相似度;
(3.4)依次计算当前访问页面和网页标签表中所有页面的余弦相似度,余弦相似度最大,即为当前访问页面最相似页面;
(4)个性化推荐,结合网页标签表和访问记录表,统计该用户访问过的s个标签(l1,l2,...lk,...ls)以及每个标签的访问频次将每个标签访问除以所有标签总的访问频次,即得到每个标签的相对访问频次;根据相对访问频次按照降序排列,计算包含标签lk的页面的访问次数,按照降序排列,生成基于标签lk的推荐列表,合并s个标签生成的推荐列表,将最终推荐结果推荐给用户;
步骤(2)生成的访问记录表,用户所访问网站是互联网已存在的,通过用户设置代理的方式,代理服务器会将预先设置的脚本嵌入在符合规则的网页中,脚本获取用户在该网站上的访问记录并将其返回到服务器,保存在数据库中;步骤(1)中生成的网页标签表,统计网页标签表可以获得领域的标签库,在之后访问未标注页面时,选取最相似页面的标签作为该页面的标签,结合步骤(2)生成的访问记录表和网页标签表,用户访问的页面都已标注标签。
CN201510408131.8A 2015-07-10 2015-07-10 一种数字化资源个性化推荐方法 Active CN105045864B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510408131.8A CN105045864B (zh) 2015-07-10 2015-07-10 一种数字化资源个性化推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510408131.8A CN105045864B (zh) 2015-07-10 2015-07-10 一种数字化资源个性化推荐方法

Publications (2)

Publication Number Publication Date
CN105045864A CN105045864A (zh) 2015-11-11
CN105045864B true CN105045864B (zh) 2019-11-05

Family

ID=54452411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510408131.8A Active CN105045864B (zh) 2015-07-10 2015-07-10 一种数字化资源个性化推荐方法

Country Status (1)

Country Link
CN (1) CN105045864B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708920A (zh) * 2016-10-09 2017-05-24 南京双运生物技术有限公司 一种针对个性化科研文献的筛选方法
CN109102903A (zh) * 2018-07-09 2018-12-28 康美药业股份有限公司 一种用于健康咨询平台的话题预测方法和系统
CN109324955A (zh) * 2018-09-14 2019-02-12 科大国创软件股份有限公司 一种具有智能推荐功能的it运维系统界面生成方法
CN112052378B (zh) * 2019-10-15 2021-09-21 河南紫联物联网技术有限公司 智能终端、智能家居应用的推荐方法及系统
CN113127766B (zh) * 2019-12-31 2023-04-14 飞书数字科技(上海)有限公司 广告兴趣词的获取方法、装置、存储介质和处理器
CN111798214B (zh) * 2020-07-10 2022-11-29 河北冀联人力资源服务集团有限公司 职位技能标签生成系统及方法
CN113158061A (zh) * 2021-05-08 2021-07-23 王云森 数据处理方法和装置
CN113392327B (zh) * 2021-07-02 2022-09-23 滨州学院 基于用户网站访问记录的图书推荐方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101493832A (zh) * 2009-03-06 2009-07-29 辽宁般若网络科技有限公司 网站内容联合推荐系统与方法
CN101984437A (zh) * 2010-11-23 2011-03-09 亿览在线网络技术(北京)有限公司 音乐资源个性化推荐方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294692B (zh) * 2012-02-24 2017-10-17 北京搜狗信息服务有限公司 一种信息推荐方法及系统
CN102622445B (zh) * 2012-03-15 2014-05-07 华南理工大学 一种基于用户兴趣感知的网页推送系统及方法
CN104035927B (zh) * 2013-03-05 2020-03-03 百度在线网络技术(北京)有限公司 一种基于用户行为的搜索方法及系统
CN104077714B (zh) * 2014-06-16 2017-06-09 微梦创科网络科技(中国)有限公司 访问网站的用户的偏好获取、广告推送方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101493832A (zh) * 2009-03-06 2009-07-29 辽宁般若网络科技有限公司 网站内容联合推荐系统与方法
CN101984437A (zh) * 2010-11-23 2011-03-09 亿览在线网络技术(北京)有限公司 音乐资源个性化推荐方法及系统

Also Published As

Publication number Publication date
CN105045864A (zh) 2015-11-11

Similar Documents

Publication Publication Date Title
CN105045864B (zh) 一种数字化资源个性化推荐方法
US9262532B2 (en) Ranking entity facets using user-click feedback
CN102687138B (zh) 搜索建议聚类和呈现
US9589071B2 (en) Query suggestions from documents
KR101175858B1 (ko) 검색 결과 페이지에 인터랙티브 요소를 포함하는 시스템 및 그 방법
KR101171405B1 (ko) 검색 결과에서 배치 내용 정렬의 맞춤화
US9213961B2 (en) Systems and methods for generating social index scores for key term analysis and comparisons
US8375286B2 (en) Systems and methods for displaying statistical information on a web page
US8538989B1 (en) Assigning weights to parts of a document
US20040103371A1 (en) Small form factor web browsing
US20060287988A1 (en) Keyword charaterization and application
CN102708174A (zh) 一种浏览器中的富媒体信息的展示方法和装置
CN103455524A (zh) 展现和获取词条信息的方法和装置
US10019419B2 (en) Method, server, browser, and system for recommending text information
US20100325129A1 (en) Determining the geographic scope of web resources using user click data
CN102768685A (zh) 一种基于关键字匹配的内容推荐方法
CN103838862B (zh) 一种视频搜索的方法、装置及终端
CN101004762A (zh) 一种动态多维互联网网页系统
CN101025740A (zh) 图片搜索结果自动播放方法
CN101477557A (zh) 一种理解用户互联网浏览行为的媒体展现平台
CN109804368A (zh) 用于提供上下文信息的系统和方法
CN104503988A (zh) 搜索方法及装置
Sohail Search Engine Optimization Methods & Search Engine Indexing for CMS Applications
US8121991B1 (en) Identifying transient paths within websites
CN104484415A (zh) 提供电子书的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20231228

Address after: Room 303, No. 43 Dongxiaqi Lane, Humen Town, Dongguan City, Guangdong Province, 523000

Patentee after: Dongguan Xianchen Information Technology Co.,Ltd.

Address before: 310018, No. 18 Jiao Tong Street, Xiasha Higher Education Park, Hangzhou, Zhejiang

Patentee before: ZHEJIANG GONGSHANG University

Effective date of registration: 20231228

Address after: 232000 meters west of Wangwei Village Committee, Jiahe Town, Panji District, Huainan City, Anhui Province

Patentee after: Huaihe Energy Zhunnan Panji Power Generation Co.,Ltd.

Patentee after: Chen Hao

Patentee after: Zang Runze

Patentee after: Chen Jiejue

Patentee after: Zheng Xiaoyong

Patentee after: Mao Xiangyun

Patentee after: Yang Xiangrong

Patentee after: Wang Xianquan

Patentee after: Pan Lijuan

Address before: Room 303, No. 43 Dongxiaqi Lane, Humen Town, Dongguan City, Guangdong Province, 523000

Patentee before: Dongguan Xianchen Information Technology Co.,Ltd.

TR01 Transfer of patent right