CN102902749B - 一种网页内容识别方法和装置 - Google Patents

一种网页内容识别方法和装置 Download PDF

Info

Publication number
CN102902749B
CN102902749B CN201210349276.1A CN201210349276A CN102902749B CN 102902749 B CN102902749 B CN 102902749B CN 201210349276 A CN201210349276 A CN 201210349276A CN 102902749 B CN102902749 B CN 102902749B
Authority
CN
China
Prior art keywords
web page
user
address
labeled
upper level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210349276.1A
Other languages
English (en)
Other versions
CN102902749A (zh
Inventor
张戈
徐建忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING EACHCLOUD CUT-OFF TECHNOLOGY Co Ltd
Original Assignee
BEIJING EACHCLOUD CUT-OFF TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING EACHCLOUD CUT-OFF TECHNOLOGY Co Ltd filed Critical BEIJING EACHCLOUD CUT-OFF TECHNOLOGY Co Ltd
Priority to CN201210349276.1A priority Critical patent/CN102902749B/zh
Publication of CN102902749A publication Critical patent/CN102902749A/zh
Application granted granted Critical
Publication of CN102902749B publication Critical patent/CN102902749B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供了一种网页内容识别方法的装置,可智能地识别出海量网页中的有效内容。其中,该方法包括:记录下每个用户对网址地址中网页模块的标记行为;检测当前用户所请求的网页地址是否被数量达到预定阈值的用户标记过,是则将记录的被最多用户标记过的内容模块作为该网页地址的有效内容;否则检查网页地址的上一级网址以及所述上一级网址所具有的其他子网址是否被数量达到用户数阈值用户标记过,直至到达顶级域名;是则将记录的被最多用户标记过的内容模块作为所述网页地址的有效内容。

Description

一种网页内容识别方法和装置
技术领域
本发明涉及互联网领域,特别是涉及一种网页内容识别方法和装置。
技术背景
互联网上每秒钟都有大量的网页产生,这些网页又由各种内容构成,用户要在海量内容找到有价值的内容(有效内容),其实是相当有难度的。
为此,需要有一种方法,可以智能地识别出网页中的有效内容部分,以推介给用户,更好地提高用户的阅读体验。
发明内容
有鉴于此,本发明实施例提供一种网页内容识别方法和装置,智能地识别出海量网页中的有效内容。为了达到上述目的,本发明实施例提供的一种网页内容识别方法,包括:
记录下每个用户对网址地址中网页模块的标记行为;
检测当前用户所请求的网页地址是否被数量达到预定阈值的用户标记过,是则将记录的被最多用户标记过的内容模块作为该网页地址的有效内容;否则
检查网页地址的上一级网址以及所述上一级网址所具有的其他子网址是否被数量达到用户数阈值用户标记过,直至到达顶级域名;是则将所述网页地址的上一级网址以及该上一级网址所具有的其他子网址中被最多用户标记过的内容模块作为网页地址对应的有效内容。
为了达到上述目的,本发明实施例提供的网页内容识别装置,包括:
记录模块,用于记录下每个用户对网址地址中网页模块的标记行为;
检测模块,用于检测当前用户所请求的网页地址、网页地址的上一级网址以及所述上一级网址所具有的其他子网址是否被数量达到用户数阈值用户标记过,直至到达顶级域名,并当检测结果为是时,通知推介模块。
推介模块,用于将所述网页地址中被最多用户标记过的内容模块作为该网页地址的有效内容;或将所述网页地址的上一级网址以及该上一级网址所具有的其他子网址中被最多用户标记过的内容模块作为网页地址对应的有效内容。
利用本发明实施例提供的网页内容识别方法和装置,可在积累和分析大量用户对同一域名下同类网页模块标记行为的基础上,智能地识别出海量网页中的有效内容。
附图说明
图1是本发明实施例中提供的网页内容识别的方法流程图。
图2是本发明实施例中提供的网页内容识别的装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
本发明实施例提供的网页方法和装置,记录大量用户对同一域名同类网页内容的标记行内容识别为,基于对大量用户标记行为的分析,确定同类网页中有效内容所在的网页模块。
图1是本发明实施例中提供的网页内容识别的方法流程图。如图1所示,该方法包括:
步骤100:记录下每个用户对网页模块的标记行为。
本发明实施例首先基于对大量用户对同类网页的标记行为的记录。每一个HTML网页都可以利用DOM(DocumentObjectModel,文档对象模型)来描述,利用DOM可以将每个HTML网页看成是一棵拥有许多节点(DOM节点)的树。每一个DOM节点都对应HTML网页中的一部分内容,另外,每一个DOM节点都可以利用Xpath(路径表达式)信息来表示。这里,Xpath可以描述从一个DOM节点到另一个节点、或一组节点的步骤顺序,其本质上可以确认每个节点各自在网页中所占据的方位。
当用户选择对网页某一部分内容进行标记时,记录下用户所标记的网页内容对应DOM节点信息。在本发明一实施例中,即记录用户所标记的网页内容对应的一个或者一组XPath信息。采用网页模块所对应的HTML的DOM节点树中的Xpath地址作为网页模块的标记。
步骤101:当前用户请求一网页地址时,检测当前用户所请求的网页地址是否被数量达到预定阈值的用户标记过,若是,转向步骤102;否则转向步骤103。
本步骤中,所述是否被数量达到预定阈值的用户标记过指的是,系统是否记录下达到预定阈值的用户对该网页地址内容的标记行为。
本领域技术人员可以理解,可以根据系统所支持用户的情况以及其他原因,可以人为地设定或修改预定阈值的值。
步骤102:将记录的被最多用户标记过的内容模块作为该网页地址的有效内容,推介给用户;结束该流程。
本步骤中,如果该网页地址中某一个DOM节点被数量最多的用户标记过,则可以认为该DOM节点对应的内容为该网页地址的有效内容。当然,在本发明一实施例中,也可以同时将多个DOM节点对应的内容作为有效内容。
本领域技术人员需要理解,本方法并不识别理解网页中有效内容本身的含义,本发明只是定位到对应的DOM节点。至于如何系统如何解析DOM节点并将其展示给用户,并不是本发明关注的重点。将“有效内容”推荐给用户的方式为:将被大多数用户所选择的Xpath地址组合,即网页模块组合,推荐给用户。
步骤103:检查网页地址的上一级网址以及该上一级网址所具有的其他子网址是否被数量达到用户数阈值的其他用户标记过,若是,则转向步骤104;否则循环执行步骤103,直至到达顶级域名。若顶级域名也没有被数量达到用户数阈值的其他用户标记过,则执行步骤105。
由于互联网中大量的网站都基于CMS(ContentManagementSystem,内容管理系统)方式产生,这样使得每个网站的兄弟姐妹(Sibling)网址之间虽然内容不同(比如记载的是不同的新闻内容),但这些网址之间的结构完全一样;即DOM树形结构模型基本上是相同的,不同的网址只是不同的模型实例而已。假设A和B为Sibling网址,A的有效内容的XPath和B的有效内容的XPath一定完全相同。在这种情况下,如果记录了大量用户对A的标记行为,对A页面的分析结果可以直接应用在B页面上。那么既使在此之前并没有记录任何用户对B的标记行为,当B页面第一次被访问时,也可以根据对大量用户对A页面标记行为的分析,直接为访问者推荐B页面中的有效内容。举例说明,http://a.com/b/c和http://a.com/b/d同作为http://a.com/b的网页,是一组sibling网页,由于http://a.com/b/c和http://a.com/b/d两个网页的具体内容不同,其对应的DOM实例可能不同,但其对应的DOM结构是相同,即http://a.com/b所有的子网页其DOM结构可能均如下(下面假设举例说明而已)
a.com/b/*(根节点)
-导航(一级节点)
-广告栏(一级节点)
-广告1(二级节点)
-广告2(二级节点)
-其他网址链接(一级节点)
-网址链接1(二级节点)
-网址链接2(二级节点)
-新闻(一级节点)
-新闻标题(二级节点)
-作者信息(二级节点)
-新闻正文(二级节点)
-正文第一段(三级节点)
-正文第二段(三级节点)
-正文第三段(三级节点)
在这种情况下,既使没有记录下任何用户对http://a.com/b/c的标记记录,通过检查http://a.com/b进而发现系统记录了大量用户对http://a.com/b/d的标记记录,并且基于用户对http://a.com/b/d的标记分析,发现http://a.com/b/d对应的DOM树中第三个一级节点为该网址的“新闻”节点,那么相应地,可以标记http://a.com/b/c的第三个一级节点的Xpath信息,将该Xpath信息作为http://a.com/b/c的有效内容的Xpath信息。
步骤104:将所述网页地址的上一级网址以及该上一级网址所具有的其他子网址中被最多用户标记过的内容模块作为网页地址对应的有效内容;结束该流程。在该步骤中,将所述网页地址的上一级网址以及该上一级网址所具有的其他子网址中被最多用户标记过的内容模块的Xpath信息直接作为该网页地址有效内容的Xpath信息,推介给用户。
步骤105:放弃自动确认该网页地址有效内容。
本领域技术人员可以理解,步骤100是步骤101至步骤105可以持续执行的一个基础,但不代表每次执行步骤101至步骤105之前都需要执行步骤100;也不代表每次执行100后一定会执行步骤101至步骤105。
在本发明一实施例中,执行完步骤102和步骤105后还可以进一步转向执行步骤100。即既使向用户成功推荐了该网页地址的有效内容,用户也可以重新标记该网址的内容,系统将重新记录下该用户重新标记的行为。比如,系统成功向用户推荐某网页的第二段新闻,但该用户可以选择进一步增加新闻标题作为标记内容,甚至该用户也可以完全抛弃到系统推荐的段落,重新选择并标记自己喜好的段落。或者,假如系统放弃为用户推荐该网页中的内容,那么用户在查阅完该网页后,可以主动标记对该网页感兴趣的内容,系统记录下该用户的标记行为后,可以作为下一次为其他用户推荐的统计基础。
本领域技术人员可以理解,每个用户、每个系统对“有效内容”的理解均不相同,对于新闻内容提供商而言,可能新闻正文是“有效内容”,对于广告分析商而言,可能广告是“有效内容”,这时,系统可以分析用户的标记行为,在统计时可以系统设置。
本发明实施例提供的技术方案可以既可以应用在精品阅读推荐中,也可以应用于网页分享中。
当利用在精品阅读推荐中,用户对网页内容的标记可以作为推荐给后续用户的基础。
当应用于网页分享时,用户通常会将网页内容提取出来,将提取的内容共享给其它用户。在这种情况下,系统可以直接记录下每个用户对网页模块的提取行为,当下一次用户访问某一网页时,如果该网页或者其上级网页以及该上级网页的下级网页中被数量达到预定阈值的用户提取过,则将记录的被最多用户提取过的内容模块作为该网页地址的有效内容,推荐给当前用户提取。当前用户既可以接受系统的推荐,也可以按自己的方式提取,在这种情况下,系统同样记录下当前用户的提取行为,作为对后续用户推荐的基础。
图2是本发明实施例中提供的网页内容识别的装置结构示意图。如图2所示,该装置包括:
记录模块,用于记录下每个用户对网址地址中网页模块的标记行为;
检测模块,用于当前用户请求一网页地址时,检测当前用户所请求的网页地址、网页地址的上一级网址以及所述上一级网址所具有的其他子网址是否被数量达到用户数阈值用户标记过,直至到达顶级域名,并当检测结果为是时,通知推介模块。
推介模块,用于将所述网页地址中被最多用户标记过的内容模块作为该网页地址的有效内容;或将所述网页地址的上一级网址以及该上一级网址所具有的其他子网址中被最多用户标记过的内容模块作为网页地址对应的有效内容。
利用本发明的实施例提供的网页模块自动标记方法和装置,可在积累和分析大量用户对同一域名下同类网页模块标记行为的基础上,为接下来查看该类网页的用户推荐阅读或者标记建议。这种方式命中用户需求的概率极大;而且无论用户接受或者不接受推荐建议,其对当前网页的标记方式也将被系统记录,从而为系统的自我优化以及为以后访问同类网页上用户识别有效内容提供贡献参考数据,是一种“人人为我,我为人人”的系统演进模式,最大限度地满足用户对于识别网页内容的需求。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种网页内容识别方法,其特征在于,包括:
记录下每个用户对网址地址中网页模块的标记行为;
检测当前用户所请求的网页地址是否被数量达到预定阈值的用户标记过,是则将所述网页地址中被最多用户标记过的内容模块作为所述网页地址的有效内容;否则
检查网页地址的上一级网址以及所述上一级网址所具有的其他子网址是否被数量达到用户数阈值用户标记过,直至到达顶级域名;是则将所述网页地址的上一级网址以及该上一级网址所具有的其他子网址中被最多用户标记过的内容模块作为网页地址对应的有效内容。
2.如权利要求1所述的方法,其特征在于,所述记录下每个用户对网址地址中网页模块的标记行为包括:
记录下用户所标记的网页内容对应DOM节点信息。
3.如权利要求2所述的方法,其特征在于,所述记录下用户所标记的网页内容对应DOM节点信息包括:
记录用户所标记的网页内容对应的一个或者一组XPath信息。
4.如权利要求2或3所述的方法,其特征在于,所述将记录的被最多用户标记过的内容模块作为该网页地址的有效内容包括:
将所述网页地址中被数量最多的用户标记过的一个或多个DOM节点作为所述网页地址的有效内容。
5.如权利要求3所述的方法,其特征在于,将所述网页地址的上一级网址以及该上一级网址所具有的其他子网址中被最多用户标记过的内容模块作为网页地址对应的有效内容包括:
将所述网页地址的上一级网址以及该上一级网址所具有的其他子网址中被最多用户标记过的内容模块的Xpath信息直接作为该网页地址有效内容的Xpath信息。
6.如权利要求1、2、3或5所述的方法,其特征在于,根据系统所支持用户的情况,设定或修改预定阈值的值。
7.一种网页内容识别装置,包括:
记录模块,用于记录下每个用户对网址地址中网页模块的标记行为;
检测模块,用于检测当前用户所请求的网页地址、网页地址的上一级网址以及所述上一级网址所具有的其他子网址是否被数量达到用户数阈值用户标记过,直至到达顶级域名,并当检测结果为是时,通知推介模块;
推介模块,用于将所述网页地址中被最多用户标记过的内容模块作为该网页地址的有效内容;或将所述网页地址的上一级网址以及该上一级网址所具有的其他子网址中被最多用户标记过的内容模块作为网页地址对应的有效内容。
CN201210349276.1A 2012-09-19 2012-09-19 一种网页内容识别方法和装置 Expired - Fee Related CN102902749B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210349276.1A CN102902749B (zh) 2012-09-19 2012-09-19 一种网页内容识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210349276.1A CN102902749B (zh) 2012-09-19 2012-09-19 一种网页内容识别方法和装置

Publications (2)

Publication Number Publication Date
CN102902749A CN102902749A (zh) 2013-01-30
CN102902749B true CN102902749B (zh) 2016-03-09

Family

ID=47574981

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210349276.1A Expired - Fee Related CN102902749B (zh) 2012-09-19 2012-09-19 一种网页内容识别方法和装置

Country Status (1)

Country Link
CN (1) CN102902749B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103152426B (zh) * 2013-03-19 2016-12-28 北京奇虎科技有限公司 预加载客户端浏览的网页的服务器、系统和方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129441A (zh) * 2010-01-14 2011-07-20 深圳市深信服电子科技有限公司 一种识别处理网页信息的方法和网页信息识别处理装置
CN102314497A (zh) * 2011-08-26 2012-01-11 百度在线网络技术(北京)有限公司 一种用于识别标记语言文件主体内容的方法和设备
JP2012027887A (ja) * 2010-03-09 2012-02-09 On Site:Kk サーバ、端末、プログラムおよびサービス提供方法
CN102567356A (zh) * 2010-12-22 2012-07-11 北京凯思昊鹏软件工程技术有限公司 针对网页内容进行剪裁和过滤的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8805781B2 (en) * 2005-06-15 2014-08-12 Geronimo Development Document quotation indexing system and method
US20070033532A1 (en) * 2005-08-05 2007-02-08 Lemelson Gregory M Method and apparatus for generating web content

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129441A (zh) * 2010-01-14 2011-07-20 深圳市深信服电子科技有限公司 一种识别处理网页信息的方法和网页信息识别处理装置
JP2012027887A (ja) * 2010-03-09 2012-02-09 On Site:Kk サーバ、端末、プログラムおよびサービス提供方法
CN102567356A (zh) * 2010-12-22 2012-07-11 北京凯思昊鹏软件工程技术有限公司 针对网页内容进行剪裁和过滤的方法
CN102314497A (zh) * 2011-08-26 2012-01-11 百度在线网络技术(北京)有限公司 一种用于识别标记语言文件主体内容的方法和设备

Also Published As

Publication number Publication date
CN102902749A (zh) 2013-01-30

Similar Documents

Publication Publication Date Title
CN102693271B (zh) 一种网络信息推荐方法及系统
CN102663000B (zh) 恶意网址数据库的建立方法、恶意网址的识别方法和装置
CN102664926B (zh) 用户信息共享方法及系统
CN103577526B (zh) 一种验证页面是否被修改的方法、系统及浏览器
CN104239298A (zh) 文本信息推荐方法、服务器、浏览器及系统
CN102752288A (zh) 网络访问行为识别方法和装置
CN102761628B (zh) 泛域名识别、处理装置及方法
CN103618696B (zh) 对cookie信息进行处理的方法和服务器
CN103617266A (zh) 个性化扩展搜索方法及装置、系统
CN102880679B (zh) 一种网页信息存储方法和装置
CN106250402B (zh) 一种网站分类方法及装置
CN102663052A (zh) 一种提供搜索引擎搜索结果的方法及装置
CN103049562A (zh) 一种识别相似网页的方法及装置
US20110270691A1 (en) Method and system for providing url possible new advertising
CN103685606A (zh) 关联域名的获取方法和系统以及网站管理员权限验证方法
CN101727471A (zh) 网站内容检索系统及方法
CN103544150A (zh) 为移动终端浏览器提供推荐信息的方法及系统
CN104317845A (zh) 一种深度网络数据自动抽取方法及系统
CN102801814A (zh) 互联网访问方法、装置及系统
CN110955855B (zh) 一种信息拦截的方法、装置及终端
CN104317884A (zh) 网站来源页面类型的获取方法和装置
CN103618742A (zh) 获取子域名的方法和系统以及网站管理员权限验证方法
CN101576933A (zh) 基于标题分隔符的全自动web页面分组法
CN102902749B (zh) 一种网页内容识别方法和装置
CN103577585B (zh) 互联网中用户的标识方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160309

Termination date: 20180919

CF01 Termination of patent right due to non-payment of annual fee