CN102622445B - 一种基于用户兴趣感知的网页推送系统及方法 - Google Patents

一种基于用户兴趣感知的网页推送系统及方法 Download PDF

Info

Publication number
CN102622445B
CN102622445B CN201210070105.5A CN201210070105A CN102622445B CN 102622445 B CN102622445 B CN 102622445B CN 201210070105 A CN201210070105 A CN 201210070105A CN 102622445 B CN102622445 B CN 102622445B
Authority
CN
China
Prior art keywords
user
webpage
label
web page
user interest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210070105.5A
Other languages
English (en)
Other versions
CN102622445A (zh
Inventor
陆以勤
薛晓冬
周耀炎
覃健诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiangshu Electronic Information Co ltd Guangzhou City
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201210070105.5A priority Critical patent/CN102622445B/zh
Publication of CN102622445A publication Critical patent/CN102622445A/zh
Application granted granted Critical
Publication of CN102622445B publication Critical patent/CN102622445B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于用户兴趣感知的网页推送方法及系统。本发明方法包括:1)综合网页文本客观长度以及用户带有主观感情色彩的浏览行为如浏览时长、是否保存标签、是否拷贝、是否曾经访问对用户兴趣进行评判,在用户阅读过程中如果浏览时长与文本长度比值大于一定阈值则认为用户对正在浏览的网页兴趣高,判定用户兴趣度为高,或者比值小于一定阈值但是用户在浏览过程中进行拷贝、保存标签等操作也判定用户兴趣度为高;如果用户浏览时长与文本长度比值小于一定阈值而又无任何特殊操作则判定用户兴趣度为低;2)对于用户兴趣度为高的情况,对于用户正在浏览的网页,首先找到文本密度最大的标签,再判断该标签的同类标签是否达到一定数目来定位和提取网页的正文,进一步对网页的Title、Description、Keywords标签中的词汇在提取的正文中统计词频形成表征网页特征的向量送到后台搜索引擎,通过计算页面向量内积,推送相关性最高的页面,对于用户兴趣度为低的情况,则根据用户的IP归属地推送具有地域特性的热点新闻、时事等。本发明同时公开的一种基于用户兴趣感知的网页推送系统,包括:用户行为获取模块、用户兴趣感知模块、用户数据处理模块、搜索模块、推送模块。本发明方法及其系统可用于互联网,用于分析用户的兴趣,针对用户兴趣进行相关的推送,用于解决互联网上信息量指数增长带来的搜索、筛选、处理上的难题。

Description

一种基于用户兴趣感知的网页推送系统及方法
技术领域
本发明涉及互联网领域,特别涉及一种基于用户的兴趣感知的网页推送方法及系统。
技术背景
伴随着互联网的高速发展,互联网内容极大的丰富,人们可以很方便的借助网络获得自己想要的信息、资源等。网页的规模反映了互联网的内容丰富程度,从《11年中国互联网络发展状况统计报告》中我们可以看出:自2003 年开始,中国的网页规模基本保翻番增长,2010年网页数量达到 600亿个,年增长率 78.6%。面对网络的汪洋大海,面对如此多的网页、如此多的资源,有一个十分严重的问题摆在我们的面前:如何在如此海量的信息中才能获得自己真正需要的信息?我们不得不承认,在现有的模式下我们只能费时、费力的去搜寻、去筛选自己需要的或是真正感兴趣的信息。
在这个分秒必争的时代,如何帮助用户及时高效的获取自己需要的资源和信息显得弥足珍贵;同时,这也成为下一代互联网研究的热点。下一代互联网必然是智能化、个性化、高效的互联网,无论各种网站还是搜索引擎,都在为用户提供高效、智能化、个性化的服务方面竭心尽力,使得用户能够得到很好的体验,从而在网络这个没有硝烟的战场上取得属于自己的一席之地。
Google、百度等优秀搜索引擎,对网络资源进行一定程度的组织,在信息检索方面给人们带来了便利。尽管搜索引擎在响应速度和查全率上有较大的突破,但对于相同的关键词条输入,系统向用户返回的搜索结果是千人一面,不能根据不同用户而区别服务。而返回的搜索结果常常包含着大量与用户搜索意图或者用户兴趣不相关的,甚至重复、过时的信息,而用户又不得不在这些信息中再次进行筛选,造成查准率的低下,在一定程度上影响了用户体验。因此对搜索结果进行再次筛选是十分必要、也是十分必须的。
发明内容
本发明的目的在于克服现有技术存在的上述不足,提供一种基于用户兴趣感知的网页推送系统及方法,当互联网用户面对海量信息时,能自动的够获取用户行为,从而能够感知用户兴趣,并根据用户兴趣进行网页推送,具体技术方案如下。
一种基于用户兴趣感知的网页推送方法,包括以下步骤:
1)首先通过浏览器、插件或相关的客户端对用户的浏览时长T、是否保存标签IsSaved、是否曾经访问过IsAccessed、是否拷贝IsCopied的浏览行为信息进行收集,并对用户行为信息进行量化;
2)然后通过判断量化后的浏览时长T与文本长度L的比值T/L是否大于或等于一定阈值Y0进行初步评判用户兴趣度的高低,如果对于用户兴趣度判断为高的情况则进行步骤3);否则通过是否保存标签IsSaved、是否曾经访问过IsAccessed、是否拷贝IsCopied等用户行为对用户兴趣度的高低进行进评判,如果对于用户兴趣度判断为高的情况则进行步骤3),否则则进行步骤4);
3)对于判定用户兴趣度为高的情况,通过文本密度以及文本密度最大标签的同类标签数目对该网页正文部分进行提取,通过名为TFIDF的方法统计Title、Description、Keywords词汇在正文中的词频以形成表征网页特征的向量,通过浏览器、插件或相关的客户端将向量发送到后台搜索引擎中进行搜索与筛选,推送与该网页内容和主题相近、相似的网页,方法结束,不再执行步骤4);
4)对于通过用户行为判定用户兴趣度为低的情况,对用户IP进行提取,将用户IP地址发送到后台,后台根据用户IP对用户进行定位,推送给用户具有地域特征的新闻和时事。
上述的一种基于用户兴趣感知的网页推送方法中,步骤1)所述的浏览行为信息是通过浏览器、插件或相关的客户端获取用户的浏览行为,包括:浏览时长T,是否拷贝IsCopied、是否访问过IsAccessed、是否保存标签IsSaved;对用户行为信息IsCopied、IsAccessed、IsSaved三个开关变量进行量化,如果是则为1,否则为0。
上述的一种基于用户兴趣感知的网页推送方法中,步骤2)包括:在用户阅读过程中如果浏览时长T与文本长度L比值T/L大于或者等于设定阈值Y0则判定用户对正在浏览的网页兴趣为高,或者用户在浏览过程中有拷贝网页内容即IsCopied=1、保存该网页为标签即IsSaved=1、曾经访问过即IsAccessed =1的特殊浏览行为则判定用户兴趣度为高;如果浏览时长T与文本长度L比值T/L小于设定阈值Y0并且没有保存标签即IsSaved=0、没有拷贝文本即IsCopied=0、没有曾经访问过即IsAccessed =0的特殊浏览行为则判定的用户兴趣度为低。
上述的一种基于用户兴趣感知的网页推送方法中,步骤3)中对网页的正文部分的提取,包括以下步骤:
a)  对于浏览器完成解析HTML文件,生成DOM树后,遍历DOM树寻找文本密度最大的节点;
b)  对于该节点进行判断,如果是则统计其兄弟标签的数目n,所述特殊标签包括br标签或p标签;
c)   如果n大于设定的阈值N0则需对该标签的位置合理性进行判断,判断该标签是否位于标题之下版权信息之上;如果是则提取该标签以及其兄弟标签中的内容;如果否则删除该标签重新执行步骤a)。
上述的一种基于用户兴趣感知的网页推送方法中,步骤3)中生成表征网页特征的向量,通过对Title、Description、Keywords三大标签中的词汇在文中运用名为TFIDF进行统计词频,归一化,构造向量空间模型,形成表征网页特征的向量。
上述的一种基于用户兴趣感知的网页推送方法中,步骤3)中将表征网页特征的向量发送给后台,后台进行搜索,对搜索到的网页的Title、Description、Keywords三大标签进行分词、统计词频,形成向量,并与前端浏览器发送过来的向量进行内积运算,筛选出内积大于一定阈值SIM0的N个向量,将对应的网页推送给用户。
上述的一种基于用户兴趣感知的网页推送方法中,步骤4)对于判定用户兴趣度为低的情况,获取用户的IP地址,将获取到的IP地址发送给后台,后台对IP地址进行定位,进而根据用户地理位置进行热点搜索,推送给用户具有区域特征的新闻、时事类的网页。
一种基于用户兴趣感知的网页推送系统,包括
用户行为获取模块,用于获取用户浏览行为——浏览时长、是否保存标签、是否拷贝、是否曾经访问过;
用户兴趣感知模块,用于评判用户对正在浏览的网页的兴趣度,对于用户浏览时长与文本字节数比值大于设定阈值则判定用户对正在浏览的网页的兴趣度为高;如果比值小于一定的阈值,但是用户在浏览过程中有拷贝网页内容、保存该网页为标签、曾经访问过等特殊浏览行为也可判定用户兴趣度为高;如果用户浏览时长与文本字节数比值小于一定的阈值,但是有没有保存标签或将网页内容拷贝等操作,则判定用户对正在浏览的网页兴趣度为低;
推送模块,根据用户行为评判的结果推送给用户特定的网页,对于判定用户兴趣度为高的情况推送与用户正在浏览的网页主题、内容相似、相近的网页,对于用户兴趣度为低的情况推送具有地域特征的新闻、时事;
用户数据处理模块,当用户兴趣度判定为高时,通过浏览器对用户正在浏览的网页形成DOM树,在DOM树中寻找其文本密度最大的节点,判断该标签是否为特殊标签,若是,则统计其兄弟节点中同类型标签数目是否超过设定的阈值,最后对其位置进行合理性查询的方法提取正文,并统计title、description、keywords三大标签中的词汇在正文中的词频,形成表征网页特征的向量;对于用户兴趣度为低的情况,则提取用户IP地址;
后台搜索模块,对于用户兴趣度评判为高的情况,对表征网页特征的向量中权重最大的五个词汇进行搜索,对于用户兴趣度评判为低的情况,对于用户的地理区域进行区域热点的搜索;
网页推送模块,对于后台搜索模块得到的结果以弹窗的形式呈现在用户浏览器端。
本发明的主要思想主要是针对用户浏览的网页进行分析,将分析结果送到高效、优秀的搜索引擎如Google、百度中,进行相关网页的搜索,但是由于Google、百度等浏览器搜索到的信息含有大量的与用户兴趣相关性不大、甚至根本无关的信息,因此对Google、百度等搜索引擎中搜索到的结果进行筛选,从而得到与用户兴趣相近、相关的网页。
和现有技术相比,本发明具有以下优点和有益效果:
1、通过获取的用户行为,能够迅速推断出用户是否对正在浏览的网页感兴趣;
2、对于用户兴趣度为高情况,能够迅速、方便的提取用户浏览网页的正文部分以便形成表征网页特征的向量;
3、对于判定用户兴趣度为高的情况,不只将用户正在浏览网页的关键词放在Google、百度等优秀搜索引擎中进行相关性搜索,还需要对搜索获得的网页进行筛选,得到用户真正感兴趣的内容,再推送给用户。
4、对于用户兴趣度为低的情况,通过定位用户IP,对用户推送基于位置的网页;
5、并不是针对某一个网站内的网页进行推送,而是针对互联网上很大一
部分网页进行推送。
6、本方法有较强的实时性,在用户没有完成网页的阅读的时候就能感知用户是否对正在浏览的网页感兴趣,因此在用户浏览网页过程中就能将相关的网页推送给用户。 
附图说明
图1 是实施方式中基于用户兴趣感知的网页推送方法中用户兴趣感知的流程图。
图2 是基于用户兴趣感知的网页推送方法中网页正文提取方法的流程图。
图3是一种基于用户兴趣感知的网页推送方法实施例的流程图。
图4是一种基于用户兴趣感知的网页推送系统的结构示意图。
具体实施方式
一种基于用户兴趣感知的网页推送方法,能够通过用户行为对用户的兴趣进行感知,并且针对用户兴趣推送特定网页。下面通过附图和实施例,对本发明实施例的技术方案做进一步的详细描述,但本发明的实施和保护不限于此。
图1是本发明通过用户行为判定用户兴趣度的流程图,包括:
步骤101、通过浏览器插件对用户的浏览时长T、是否保存标签(IsSaved)、是否曾经访问过(IsAccessed)、是否拷贝(IsCopied)等浏览行为信息以及网页文本长度L进行收集;
步骤102、对用户行为进行量化,如果用户曾经访问过该网页则IsAccessed =1,否则IsAccessed=0;用户保存该网页则IsSaved=1,否则IsSaved=0;用户拷贝该网页中的内容IsCopied=1,否则,IsCopied=0;
步骤103、判定浏览时长T与文本长度L的比值T/L是否大于一定阈值Y0,如果是则执行步骤14,否则执行步骤15;
步骤104、判定用户兴趣为高;
步骤105、判断用户是否曾经访问过该网页,即判断IsAccessed是否为1,如果是则执行步骤14,否则,执行步骤16;
步骤106、判断用户是否对正在浏览的网页中内容有拷贝操作,即判断IsCopied是否为1,如果是则执行步骤14,否则,执行步骤17;
步骤107、判断用户是否对正在浏览的网页进行收藏,即判断IsSaved是否为1,如果是,执行步骤14,否则,执行步骤18;
步骤108、判定用户兴趣为低;
步骤109、结束。
通过图1所示的用户兴趣感知过程,可以判断用户是否对正在浏览的网页感兴趣,以便给用户推送更加合适的网页;
图2 是本发明基网页正文提取方法的流程图;
步骤201、浏览器解析完HTML文件生成DOM树;
步骤202、遍历DOM树;
步骤203、判断是否完成DOM的遍历,如果是则执行步骤211,结束;否者,执行步骤204;
步骤204、判断未标志节点文本密度是否最大,如果是则执行步骤205,否则,则执行步骤202,重新遍历DOM树;
步骤205、判断该节点是否特殊标签节点,如果是则执行步骤207,否则,则执行步骤206;
步骤206、对于该标签进行标记,执行步骤202,重新遍历DOM树;
步骤207、统计兄弟节点中同类型标签的数目n;
步骤208、判断n是否大于一定阈值N0,如果是则执行步骤209,否则,则执行步骤211,结束;
步骤209、判断节点位置是否符合规律,如果是则执行步骤210,否则,则执行步骤211,结束;
步骤210、提取判断为页面征文块的节点文本;
步骤211、结束。
通过图2所示的正文提取流程,可以很方便的提取网页的正文,从而形成用户感兴趣网页的向量,送到后台搜索引擎中进行搜索与筛选,进而推送给用户;
图3为本发明基于用户兴趣感知的网页推送方法实施例的流程图。如图3所示,本发明实施例提供了一种基于用户兴趣感知的网页推送方法,包括:
步骤301、用户行为的收集与量化;                                                              
步骤302、通过图1所述的方法判断用户是否对正在浏览的网页感兴趣,如果判定用户兴趣度为高则执行步骤303,否则,执行步骤304;
步骤303、提取HTML源文件的Title、Keywords、Description三大标签;
步骤304、提取用户IP地址;
步骤305、通过图2所示的方法提取网页的正文;
步骤306、对于Title、Keywords、Description三大标签中的词汇在正文中进行分词、统计词频,形成表征网页特征的向量;
步骤307、将表征用户正在浏览网页特征的向量按照形式送到后台搜索引擎中进行关键词匹配搜索;
步骤308、对于得到的搜索结果,使用VSM模型来表征这些网页三大标签Title、Keywords、Description,与用户正在浏览网页的向量进行内积运算,筛选出内积较大的几个;
步骤309、将步骤304提取的用户IP地址送到后台;
步骤310、根据用户IP地址确定用户所在区域,在后台预定义的网站中搜索对应的省级地方门户网站及区域热点网站;
步骤311、将步骤308或者步骤310的结果推送给用户;
步骤312、结束。
在本发明实施例中,对于收集到的用户行为首先进行量化,判断用户浏览时间与网页文本长度的比值是否达到一定的阈值,如果达到一定阈值则认为用户对正在浏览的网页感兴趣,判定用户兴趣度为高,如果没有到达,则继续判断用户带有主观感情色彩的特殊行为,是否保存标签、是否拷贝、是否曾经访问过等,如果有特殊操作则可判定用户对正在浏览的网页兴趣度高,判定用户兴趣度为高,否则判定用户兴趣度为低;对于用户兴趣度为高的情况,首先通过浏览器对用户正在浏览的网页形成DOM树,在DOM树中寻找其文本密度最大的标签,再通过判断文本密度最大标签同类标签的数目来定位与提取网页的正文,根据三大标签Title、Keywords、Description的词汇在正文中统计词频,形成表征网页特征的向量,送到后台搜索引擎进行搜索与筛选,将相关、相近的网页推送给用户;对于用户兴趣度低高的情况,首先获取用户的IP地址,然后将IP地址送到后台,进行定位,根据用户地理位置对进行区域热点新闻、时事搜索,推送给用户。
图4为本发明一种基于用户兴趣感知的网页推送系统实施例的结构示意图。如图4所示,本发明实施例提供了一种基于用户兴趣感知的网页推送系统,包括:用户行为获取模块401、用户兴趣感知模块402、用户数据处理模块403、后台搜索模块404、推送模块405。其中,用户行为获取模块401用于获取用户行为,用户浏览时长、是否保存标签、是否拷贝、是否曾经访问过等用户行为;用户兴趣感知模块402,包括两个单元:用户行为量化单元406与用户兴趣评判单元407,其中,用户行为量化单元406用于对用户行为获取模块401收集到的数据进行量化,对用户浏览时长与文本长度的比值、以及是否保存标签、是否拷贝、是否曾经访问过等进行量化,用户兴趣评判单元407,用于对用户行为量化单元406所得到的结果进行判断,如果用户浏览时长与文本长度的比值大于一定阈值则判定用户兴趣度为高,如果该比值小于一定阈值但是有保存标签、拷贝、访问过任一项操作也判定用户兴趣度为高,否则认为用户兴趣度为低;用户数据处理模块403,包括三个单元:页面正文提取单元408、三大标签在正文中词频统计单元409与用户IP地址获取单元,其中页面正文提取单元408,对于浏览器完成解析HTML文件,生成DOM树后,遍历DOM树上的节点,找到其中文本密度最大的节点,然后判断该标签的同类标签是否达到一定的阈值,最后检查该标签的位置是否合理,是否在标题标签之下版权标签之上,三大标签在正文中词频统计单元409,对于正文提取单元408提取的正文进行分词,统计三大标签Title、Keywords、Description标签中的词汇在正文中的词频,构造出该网页的VSM模型,当用户兴趣度高的情况下才运行这两个单元,用户IP地址获取单元410,用于当用户兴趣度为低的情况下获取用户IP地址;后台搜索模块404,包括两个单元:搜索单元411与筛选单元412,搜索单元411当用户兴趣度为高的时,对于表征该网页的特征的向量选取权重最大的5个词进行搜索,当用户兴趣度为低时,通过用户的IP地址,定位用户的地理区域,搜索该区域内的热点新闻、时事等,筛选单元412对于搜索单元411搜索到的结果进行筛选,只是对于用户兴趣度较高的情况,将搜索到网页用向量表征其三大标签Title、Keywords、Description标签,与用户浏览网页的向量进行内积运算,筛选出内积大于一定阈值的网页;推送模块405,对于后台搜索模块404的结果进行推送。
最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims (8)

1.一种基于用户兴趣感知的网页推送方法,其特征在于,包括以下步骤:
1)首先通过浏览器、插件或相关的客户端对用户的浏览时长T、是否保存标签IsSaved、是否曾经访问过IsAccessed、是否拷贝IsCopied的浏览行为信息进行收集,并对用户行为信息进行量化;
2)然后通过判断量化后的浏览时长T与文本长度L的比值T/L是否大于或等于一定阈值Y0进行初步评判用户兴趣度的高低,如果对于用户兴趣度判断为高的情况则进行步骤3);否则通过是否保存标签IsSaved、是否曾经访问过IsAccessed、是否拷贝IsCopied的用户行为对用户兴趣度的高低进行评判,如果对于用户兴趣度判断为高的情况则进行步骤3),否则则进行步骤4);
3)对于判定用户兴趣度为高的情况,通过文本密度以及文本密度最大标签的同类标签数目对该网页正文部分进行提取,通过名为TFIDF的方法统计Title、Description、Keywords词汇在正文中的词频以形成表征网页特征的向量,通过浏览器、插件或相关的客户端将向量发送到后台搜索引擎中进行搜索与筛选,推送与该网页内容和主题相近、相似的网页,方法结束,不再执行步骤4);
4)对于通过用户行为判定用户兴趣度为低的情况,对用户IP进行提取,将用户IP地址发送到后台,后台根据用户IP对用户进行定位,推送给用户具有地域特征的新闻和时事。
2.如权利要求1所述的一种基于用户兴趣感知的网页推送方法,其特征在于,步骤1)所述的浏览行为信息是通过浏览器、插件或相关的客户端获取用户的浏览行为,包括:浏览时长T,是否拷贝IsCopied、是否访问过IsAccessed、是否保存标签IsSaved;对用户行为信息IsCopied、IsAccessed、IsSaved三个开关变量进行量化,如果是则为1,否则为0。
3.如权利要求1所述的一种基于用户兴趣感知的网页推送方法,其特征在于,步骤2)包括:在用户阅读过程中如果浏览时长T与文本长度L比值T/L大于或者等于设定阈值Y0则判定用户对正在浏览的网页兴趣为高,或者用户在浏览过程中有拷贝网页内容即IsCopied=1、保存该网页为标签即IsSaved=1、曾经访问过即IsAccessed =1的特殊浏览行为则判定用户兴趣度为高;如果浏览时长T与文本长度L比值T/L小于设定阈值Y0并且没有保存标签即IsSaved=0、没有拷贝文本即IsCopied=0、没有曾经访问过即IsAccessed =0的特殊浏览行为则判定的用户兴趣度为低。
4.如权利要求1所述的一种基于用户兴趣感知的网页推送方法,其特征在于,步骤3)中对网页的正文部分的提取,包括以下步骤:
a)浏览器完成解析HTML文件,生成DOM树后,遍历DOM树寻找文本密度最大的节点;
b)判断该节点是否为特殊标签节点,如果是则统计其兄弟标签的数目n,所述特殊标签包括br标签或p标签;
如果n大于设定的阈值N0则需对该标签的位置合理性进行判断,判断该标签是否位于标题之下版权信息之上;如果是则提取该标签以及其兄弟标签中的内容;如果否则删除该标签重新执行步骤a)。
5.如权利要求1所述的一种基于用户兴趣感知的网页推送方法,其特征在于,步骤3)中生成表征网页特征的向量,通过对Title、Description、Keywords三大标签中的词汇在文中运用名为TFIDF的方法进行词频统计,归一化,构造向量空间模型,形成表征网页特征的向量。
6.如权利要求1所述的一种基于用户兴趣感知的网页推送方法,其特征在于,步骤3)中将表征网页特征的向量发送给后台,后台进行搜索,对搜索到的网页的Title、Description、Keywords三大标签进行分词、统计词频,形成向量,并与前端浏览器发送过来的向量进行内积运算,筛选出内积大于一定阈值SIM0的N个向量,将对应的网页推送给用户。
7.如权利要求1所述的一种基于用户兴趣感知的网页推送方法,其特征在于,步骤4)对于判定用户兴趣度为低的情况,获取用户的IP地址,将获取到的IP地址发送给后台,后台对IP地址进行定位,进而根据用户地理位置进行热点搜索,推送给用户具有区域特征的新闻、时事类的网页。
8.一种基于用户兴趣感知的网页推送系统,其特征在于包括:
用户行为获取模块,用于获取用户浏览行为——浏览时长、是否保存标签、是否拷贝、是否曾经访问过;
用户兴趣感知模块,用于评判用户对正在浏览的网页的兴趣度,对于用户浏览时长与文本字节数比值大于设定阈值则判定用户对正在浏览的网页的兴趣度为高;如果比值小于一定的阈值,但是用户在浏览过程中有拷贝网页内容、保存该网页为标签、曾经访问过的特殊浏览行为也可判定用户兴趣度为高;如果用户浏览时长与文本字节数比值小于一定的阈值,但是又没有保存标签或将网页内容拷贝或曾经访问过的操作,则判定用户对正在浏览的网页兴趣度为低;
推送模块,根据用户行为评判的结果推送给用户特定的网页,对于判定用户兴趣度为高的情况推送与用户正在浏览的网页主题、内容相似、相近的网页,对于用户兴趣度为低的情况推送具有地域特征的新闻、时事;
用户数据处理模块,当用户兴趣度判定为高时,通过浏览器对用户正在浏览的网页形成DOM树,在DOM树中寻找其文本密度最大的节点,判断该标签是否为特殊标签,若是,则统计其兄弟节点中同类型标签数目是否超过设定的阈值,最后对其位置进行合理性查询的方法提取正文,并统计title、description、keywords三大标签中的词汇在正文中的词频,形成表征网页特征的向量;对于用户兴趣度为低的情况,则提取用户IP地址;
后台搜索模块,对于用户兴趣度评判为高的情况,对表征网页特征的向量中权重最大的五个词汇进行搜索,对于用户兴趣度评判为低的情况,对于用户的地理区域进行区域热点的搜索;
网页推送模块,对于后台搜索模块得到的结果以弹窗的形式呈现在用户浏览器端。
CN201210070105.5A 2012-03-15 2012-03-15 一种基于用户兴趣感知的网页推送系统及方法 Expired - Fee Related CN102622445B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210070105.5A CN102622445B (zh) 2012-03-15 2012-03-15 一种基于用户兴趣感知的网页推送系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210070105.5A CN102622445B (zh) 2012-03-15 2012-03-15 一种基于用户兴趣感知的网页推送系统及方法

Publications (2)

Publication Number Publication Date
CN102622445A CN102622445A (zh) 2012-08-01
CN102622445B true CN102622445B (zh) 2014-05-07

Family

ID=46562364

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210070105.5A Expired - Fee Related CN102622445B (zh) 2012-03-15 2012-03-15 一种基于用户兴趣感知的网页推送系统及方法

Country Status (1)

Country Link
CN (1) CN102622445B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874170A (zh) * 2017-02-10 2017-06-20 上海木爷机器人技术有限公司 兴趣内容识别方法及装置
CN108804583A (zh) * 2018-05-25 2018-11-13 武汉市华太培文教育科技有限公司 基于用户阅读兴趣进行文献推送的系统及方法

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103634736A (zh) * 2012-08-21 2014-03-12 北京友友天宇系统技术有限公司 基于地理信息的热点新闻分享方法、装置及系统
CN103067470B (zh) * 2012-12-21 2016-08-03 北京奇虎科技有限公司 一种向浏览器推送信息的方法、服务器和系统
CN103246725A (zh) * 2013-05-06 2013-08-14 上海河广信息科技有限公司 一种基于无线网络的数据业务推送系统和方法
CN104216921B (zh) * 2013-06-05 2019-06-04 腾讯科技(深圳)有限公司 一种实现浏览器中快速链接的添加提示方法、装置及系统
CN103500213B (zh) * 2013-09-30 2017-01-11 北京搜狗科技发展有限公司 基于预读取的页面热点资源更新方法和装置
CN104636373A (zh) * 2013-11-11 2015-05-20 腾讯科技(深圳)有限公司 一种信息推送方法及装置
CN103593195A (zh) * 2013-11-22 2014-02-19 安一恒通(北京)科技有限公司 一种个性化软件的定制方法和装置
CN103870606B (zh) * 2014-04-08 2017-05-10 上海语天信息技术有限公司 一种网页信息提取系统及提取方法
CN104038559A (zh) * 2014-06-27 2014-09-10 珠海市君天电子科技有限公司 一种内容推送方法、服务器、客户端和系统
CN104199874B (zh) * 2014-08-20 2018-07-31 哈尔滨工程大学 一种基于用户浏览行为的网页推荐方法
CN105373570B (zh) * 2014-09-02 2020-09-15 中兴通讯股份有限公司 一种浏览器历史记录的管理方法及终端
CN104363267B (zh) * 2014-10-24 2019-03-08 北京数字天域科技有限责任公司 一种数据加载、显示方法及装置
CN104822150B (zh) * 2015-05-13 2019-06-14 北京工业大学 中心多跳认知蜂窝网络中的信息主动缓存的频谱管理方法
CN105045864B (zh) * 2015-07-10 2019-11-05 浙江工商大学 一种数字化资源个性化推荐方法
WO2017028099A1 (zh) * 2015-08-16 2017-02-23 常平 网站推荐方法和网站推荐系统
WO2017028098A1 (zh) * 2015-08-16 2017-02-23 常平 推荐网站时显示技术信息的方法和网站推荐系统
CN109479179A (zh) * 2015-08-18 2019-03-15 郭子明 展示新闻的方法和新闻展示系统
WO2017028180A1 (zh) * 2015-08-18 2017-02-23 郭子明 展示新闻时信息推送方法和新闻展示系统
CN105279224B (zh) * 2015-09-09 2019-01-15 百度在线网络技术(北京)有限公司 信息推送方法及装置
CN106649347A (zh) * 2015-10-30 2017-05-10 北京国双科技有限公司 一种兴趣信息的识别方法及装置
CN105469284A (zh) * 2015-12-30 2016-04-06 深圳市鼎芯无限科技有限公司 判断用户兴趣度的方法及装置
CN105868264A (zh) * 2015-12-31 2016-08-17 乐视网信息技术(北京)股份有限公司 一种根据关注词推送更新信息的方法及系统
CN107122367B (zh) * 2016-02-25 2020-07-03 阿里巴巴集团控股有限公司 基于用户浏览行为的用户属性值计算方法和计算装置
CN106294601B (zh) * 2016-07-28 2020-11-10 腾讯科技(深圳)有限公司 数据处理方法和装置
CN106294744A (zh) * 2016-08-11 2017-01-04 上海动云信息科技有限公司 兴趣识别方法及系统
CN108009185B (zh) * 2016-10-31 2022-02-18 阿里巴巴集团控股有限公司 提供页面信息的方法及装置
CN106777139A (zh) * 2016-12-19 2017-05-31 浙江工业大学 基于阅读时间的用户阅读偏好统计的个性化推送方法
CN108959329B (zh) * 2017-05-27 2023-05-16 腾讯科技(北京)有限公司 一种文本分类方法、装置、介质及设备
CN107222570B (zh) * 2017-07-10 2022-04-26 北京博瑞彤芸科技股份有限公司 一种基于用户使用状况的健康资讯推送方法
CN107526807B (zh) * 2017-08-22 2020-01-31 中国联合网络通信集团有限公司 信息推荐方法及装置
CN110020296A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种提取新闻网页正文的方法及装置
CN110555159A (zh) * 2018-03-30 2019-12-10 北大方正集团有限公司 网页检索方法、装置、设备及存储介质
CN109446412B (zh) * 2018-09-25 2023-07-21 中国平安人寿保险股份有限公司 基于网页标签的产品数据推送方法、装置、设备及介质
CN109408725B (zh) * 2018-11-07 2020-09-29 京东数字科技控股有限公司 用于确定用户兴趣的方法和装置
CN109740061B (zh) * 2019-01-03 2021-03-19 北京奇艺世纪科技有限公司 一种基于用户浏览行为的信息流数据动态加载方法及装置
CN110502299B (zh) * 2019-08-12 2021-05-14 南京大众书网图书文化有限公司 一种用于提供小说信息的方法与设备
CN110674438A (zh) * 2019-08-16 2020-01-10 中国平安财产保险股份有限公司 一种广告投放方法、装置、计算机系统及可读存储介质
CN110830595B (zh) * 2019-12-17 2022-08-02 詹华洋 一种个性化音乐推送方法及系统
CN112084352B (zh) * 2020-09-08 2022-04-01 北京字节跳动网络技术有限公司 一种数据处理、数据展示方法及装置
CN113742570A (zh) * 2020-12-01 2021-12-03 北京沃东天骏信息技术有限公司 一种商品搜索方法、终端设备及服务器
CN114187036B (zh) * 2021-11-30 2022-10-11 深圳市喂车科技有限公司 一种基于行为特征识别的互联网广告智能推荐管理系统
CN114463067B (zh) * 2022-02-11 2022-11-11 深圳市聚商鼎力网络技术有限公司 一种基于大数据的用户浏览行为的用户兴趣建模方法
CN115379004A (zh) * 2022-07-04 2022-11-22 南京推而广知网络科技有限公司 一种内容创意推送运营系统及其使用方法
CN116894134B (zh) * 2023-09-11 2023-12-12 湖南创研科技股份有限公司 一种基于用户行为的大数据分析方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101551806A (zh) * 2008-04-03 2009-10-07 北京搜狗科技发展有限公司 一种个性化网址导航的方法和系统
CN101866341A (zh) * 2009-04-17 2010-10-20 华为技术有限公司 一种信息推送方法、装置及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050071328A1 (en) * 2003-09-30 2005-03-31 Lawrence Stephen R. Personalization of web search

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101551806A (zh) * 2008-04-03 2009-10-07 北京搜狗科技发展有限公司 一种个性化网址导航的方法和系统
CN101866341A (zh) * 2009-04-17 2010-10-20 华为技术有限公司 一种信息推送方法、装置及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874170A (zh) * 2017-02-10 2017-06-20 上海木爷机器人技术有限公司 兴趣内容识别方法及装置
CN106874170B (zh) * 2017-02-10 2020-11-03 上海木木聚枞机器人科技有限公司 兴趣内容识别方法及装置
CN108804583A (zh) * 2018-05-25 2018-11-13 武汉市华太培文教育科技有限公司 基于用户阅读兴趣进行文献推送的系统及方法

Also Published As

Publication number Publication date
CN102622445A (zh) 2012-08-01

Similar Documents

Publication Publication Date Title
CN102622445B (zh) 一种基于用户兴趣感知的网页推送系统及方法
CN102930059B (zh) 一种聚焦爬虫的设计方法
CN103365924B (zh) 一种互联网信息搜索的方法、装置和终端
CN108052632B (zh) 一种网络信息获取方法、系统及企业信息搜索系统
CN106095979B (zh) Url合并处理方法和装置
CN102591992A (zh) 基于垂直搜索和聚焦爬虫技术的网页分类识别系统及方法
CN106383887A (zh) 一种环保新闻数据采集和推荐展示的方法及系统
CN104035972B (zh) 一种基于微博的知识推荐方法与系统
CN102306201B (zh) 一种网页标题分析的方法和系统
US20160103861A1 (en) Method and system for establishing a performance index of websites
Yang OntoCrawler: A focused crawler with ontology-supported website models for information agents
CN103838732A (zh) 一种生活服务领域垂直搜索引擎
US10275472B2 (en) Method for categorizing images to be associated with content items based on keywords of search queries
CN101576891A (zh) 一种解析网页表格对象节点的方法
Al-asadi et al. A survey on web mining techniques and applications
US20160103913A1 (en) Method and system for calculating a degree of linkage for webpages
US20150302090A1 (en) Method and System for the Structural Analysis of Websites
CN104391978A (zh) 用于浏览器的网页收藏处理方法及装置
CN104615627A (zh) 一种基于微博平台的事件舆情信息提取方法及系统
CN106202312B (zh) 一种用于移动互联网的兴趣点搜索方法和系统
Pitman et al. Web usage mining in tourism—a query term analysis and clustering approach
Choudhary et al. Role of ranking algorithms for information retrieval
CN103092945B (zh) 一种基于界面返回的搜索方法和装置
CN105095404A (zh) 网页信息的处理方法、网页信息的推荐方法及装置
Ren et al. How people use the web in large indoor spaces

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Li Ruoling

Inventor after: Xue Xiaodong

Inventor after: Zhou Yaoyan

Inventor after: Tan Jiancheng

Inventor before: Lu Yiqin

Inventor before: Xue Xiaodong

Inventor before: Zhou Yaoyan

Inventor before: Tan Jiancheng

CB03 Change of inventor or designer information
TR01 Transfer of patent right

Effective date of registration: 20170613

Address after: 510000 25D room, No. five, 267 mountain road, Guangzhou, Guangdong, Tianhe District

Patentee after: Xiangshu Electronic Information Co.,Ltd. Guangzhou City

Address before: 510640 Tianhe District, Guangdong, No. five road, No. 381,

Patentee before: South China University of Technology

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140507

CF01 Termination of patent right due to non-payment of annual fee