CN102902749B

CN102902749B - 一种网页内容识别方法和装置

Info

Publication number: CN102902749B
Application number: CN201210349276.1A
Authority: CN
Inventors: 张戈; 徐建忠
Original assignee: BEIJING EACHCLOUD CUT-OFF TECHNOLOGY Co Ltd
Current assignee: BEIJING EACHCLOUD CUT-OFF TECHNOLOGY Co Ltd
Priority date: 2012-09-19
Filing date: 2012-09-19
Publication date: 2016-03-09
Anticipated expiration: 2032-09-19
Also published as: CN102902749A

Abstract

本发明提供了一种网页内容识别方法的装置，可智能地识别出海量网页中的有效内容。其中，该方法包括：记录下每个用户对网址地址中网页模块的标记行为；检测当前用户所请求的网页地址是否被数量达到预定阈值的用户标记过，是则将记录的被最多用户标记过的内容模块作为该网页地址的有效内容；否则检查网页地址的上一级网址以及所述上一级网址所具有的其他子网址是否被数量达到用户数阈值用户标记过，直至到达顶级域名；是则将记录的被最多用户标记过的内容模块作为所述网页地址的有效内容。

Description

一种网页内容识别方法和装置

技术领域

本发明涉及互联网领域，特别是涉及一种网页内容识别方法和装置。

技术背景

互联网上每秒钟都有大量的网页产生，这些网页又由各种内容构成，用户要在海量内容找到有价值的内容（有效内容），其实是相当有难度的。

为此，需要有一种方法，可以智能地识别出网页中的有效内容部分，以推介给用户，更好地提高用户的阅读体验。

发明内容

有鉴于此，本发明实施例提供一种网页内容识别方法和装置，智能地识别出海量网页中的有效内容。为了达到上述目的，本发明实施例提供的一种网页内容识别方法，包括：

记录下每个用户对网址地址中网页模块的标记行为；

检测当前用户所请求的网页地址是否被数量达到预定阈值的用户标记过，是则将记录的被最多用户标记过的内容模块作为该网页地址的有效内容；否则

检查网页地址的上一级网址以及所述上一级网址所具有的其他子网址是否被数量达到用户数阈值用户标记过，直至到达顶级域名；是则将所述网页地址的上一级网址以及该上一级网址所具有的其他子网址中被最多用户标记过的内容模块作为网页地址对应的有效内容。

为了达到上述目的，本发明实施例提供的网页内容识别装置，包括：

记录模块，用于记录下每个用户对网址地址中网页模块的标记行为；

检测模块，用于检测当前用户所请求的网页地址、网页地址的上一级网址以及所述上一级网址所具有的其他子网址是否被数量达到用户数阈值用户标记过，直至到达顶级域名，并当检测结果为是时，通知推介模块。

推介模块，用于将所述网页地址中被最多用户标记过的内容模块作为该网页地址的有效内容；或将所述网页地址的上一级网址以及该上一级网址所具有的其他子网址中被最多用户标记过的内容模块作为网页地址对应的有效内容。

利用本发明实施例提供的网页内容识别方法和装置，可在积累和分析大量用户对同一域名下同类网页模块标记行为的基础上，智能地识别出海量网页中的有效内容。

附图说明

图1是本发明实施例中提供的网页内容识别的方法流程图。

图2是本发明实施例中提供的网页内容识别的装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

本发明实施例提供的网页方法和装置，记录大量用户对同一域名同类网页内容的标记行内容识别为，基于对大量用户标记行为的分析，确定同类网页中有效内容所在的网页模块。

图1是本发明实施例中提供的网页内容识别的方法流程图。如图1所示，该方法包括：

步骤100：记录下每个用户对网页模块的标记行为。

本发明实施例首先基于对大量用户对同类网页的标记行为的记录。每一个HTML网页都可以利用DOM（DocumentObjectModel，文档对象模型）来描述，利用DOM可以将每个HTML网页看成是一棵拥有许多节点（DOM节点）的树。每一个DOM节点都对应HTML网页中的一部分内容，另外，每一个DOM节点都可以利用Xpath（路径表达式）信息来表示。这里，Xpath可以描述从一个DOM节点到另一个节点、或一组节点的步骤顺序，其本质上可以确认每个节点各自在网页中所占据的方位。

当用户选择对网页某一部分内容进行标记时，记录下用户所标记的网页内容对应DOM节点信息。在本发明一实施例中，即记录用户所标记的网页内容对应的一个或者一组XPath信息。采用网页模块所对应的HTML的DOM节点树中的Xpath地址作为网页模块的标记。

步骤101：当前用户请求一网页地址时，检测当前用户所请求的网页地址是否被数量达到预定阈值的用户标记过，若是，转向步骤102；否则转向步骤103。

本步骤中，所述是否被数量达到预定阈值的用户标记过指的是，系统是否记录下达到预定阈值的用户对该网页地址内容的标记行为。

本领域技术人员可以理解，可以根据系统所支持用户的情况以及其他原因，可以人为地设定或修改预定阈值的值。

步骤102：将记录的被最多用户标记过的内容模块作为该网页地址的有效内容，推介给用户；结束该流程。

本步骤中，如果该网页地址中某一个DOM节点被数量最多的用户标记过，则可以认为该DOM节点对应的内容为该网页地址的有效内容。当然，在本发明一实施例中，也可以同时将多个DOM节点对应的内容作为有效内容。

本领域技术人员需要理解，本方法并不识别理解网页中有效内容本身的含义，本发明只是定位到对应的DOM节点。至于如何系统如何解析DOM节点并将其展示给用户，并不是本发明关注的重点。将“有效内容”推荐给用户的方式为：将被大多数用户所选择的Xpath地址组合，即网页模块组合，推荐给用户。

步骤103：检查网页地址的上一级网址以及该上一级网址所具有的其他子网址是否被数量达到用户数阈值的其他用户标记过，若是，则转向步骤104；否则循环执行步骤103，直至到达顶级域名。若顶级域名也没有被数量达到用户数阈值的其他用户标记过，则执行步骤105。

由于互联网中大量的网站都基于CMS（ContentManagementSystem，内容管理系统）方式产生，这样使得每个网站的兄弟姐妹（Sibling）网址之间虽然内容不同（比如记载的是不同的新闻内容），但这些网址之间的结构完全一样；即DOM树形结构模型基本上是相同的，不同的网址只是不同的模型实例而已。假设A和B为Sibling网址，A的有效内容的XPath和B的有效内容的XPath一定完全相同。在这种情况下，如果记录了大量用户对A的标记行为，对A页面的分析结果可以直接应用在B页面上。那么既使在此之前并没有记录任何用户对B的标记行为，当B页面第一次被访问时，也可以根据对大量用户对A页面标记行为的分析，直接为访问者推荐B页面中的有效内容。举例说明，http://a.com/b/c和http://a.com/b/d同作为http://a.com/b的网页，是一组sibling网页，由于http://a.com/b/c和http://a.com/b/d两个网页的具体内容不同，其对应的DOM实例可能不同，但其对应的DOM结构是相同，即http://a.com/b所有的子网页其DOM结构可能均如下（下面假设举例说明而已）

a.com/b/^*(根节点)

-导航（一级节点）

-广告栏（一级节点）

-广告1（二级节点）

-广告2（二级节点）

-其他网址链接（一级节点）

-网址链接1（二级节点）

-网址链接2（二级节点）

-新闻（一级节点）

-新闻标题（二级节点）

-作者信息（二级节点）

-新闻正文（二级节点）

-正文第一段（三级节点）

-正文第二段（三级节点）

-正文第三段（三级节点）

在这种情况下，既使没有记录下任何用户对http://a.com/b/c的标记记录，通过检查http://a.com/b进而发现系统记录了大量用户对http://a.com/b/d的标记记录，并且基于用户对http://a.com/b/d的标记分析，发现http://a.com/b/d对应的DOM树中第三个一级节点为该网址的“新闻”节点，那么相应地，可以标记http://a.com/b/c的第三个一级节点的Xpath信息，将该Xpath信息作为http://a.com/b/c的有效内容的Xpath信息。

步骤104：将所述网页地址的上一级网址以及该上一级网址所具有的其他子网址中被最多用户标记过的内容模块作为网页地址对应的有效内容；结束该流程。在该步骤中，将所述网页地址的上一级网址以及该上一级网址所具有的其他子网址中被最多用户标记过的内容模块的Xpath信息直接作为该网页地址有效内容的Xpath信息，推介给用户。

步骤105：放弃自动确认该网页地址有效内容。

本领域技术人员可以理解，步骤100是步骤101至步骤105可以持续执行的一个基础，但不代表每次执行步骤101至步骤105之前都需要执行步骤100；也不代表每次执行100后一定会执行步骤101至步骤105。

在本发明一实施例中，执行完步骤102和步骤105后还可以进一步转向执行步骤100。即既使向用户成功推荐了该网页地址的有效内容，用户也可以重新标记该网址的内容，系统将重新记录下该用户重新标记的行为。比如，系统成功向用户推荐某网页的第二段新闻，但该用户可以选择进一步增加新闻标题作为标记内容，甚至该用户也可以完全抛弃到系统推荐的段落，重新选择并标记自己喜好的段落。或者，假如系统放弃为用户推荐该网页中的内容，那么用户在查阅完该网页后，可以主动标记对该网页感兴趣的内容，系统记录下该用户的标记行为后，可以作为下一次为其他用户推荐的统计基础。

本领域技术人员可以理解，每个用户、每个系统对“有效内容”的理解均不相同，对于新闻内容提供商而言，可能新闻正文是“有效内容”，对于广告分析商而言，可能广告是“有效内容”，这时，系统可以分析用户的标记行为，在统计时可以系统设置。

本发明实施例提供的技术方案可以既可以应用在精品阅读推荐中，也可以应用于网页分享中。

当利用在精品阅读推荐中，用户对网页内容的标记可以作为推荐给后续用户的基础。

当应用于网页分享时，用户通常会将网页内容提取出来，将提取的内容共享给其它用户。在这种情况下，系统可以直接记录下每个用户对网页模块的提取行为，当下一次用户访问某一网页时，如果该网页或者其上级网页以及该上级网页的下级网页中被数量达到预定阈值的用户提取过，则将记录的被最多用户提取过的内容模块作为该网页地址的有效内容，推荐给当前用户提取。当前用户既可以接受系统的推荐，也可以按自己的方式提取，在这种情况下，系统同样记录下当前用户的提取行为，作为对后续用户推荐的基础。

图2是本发明实施例中提供的网页内容识别的装置结构示意图。如图2所示，该装置包括：

检测模块，用于当前用户请求一网页地址时，检测当前用户所请求的网页地址、网页地址的上一级网址以及所述上一级网址所具有的其他子网址是否被数量达到用户数阈值用户标记过，直至到达顶级域名，并当检测结果为是时，通知推介模块。

利用本发明的实施例提供的网页模块自动标记方法和装置，可在积累和分析大量用户对同一域名下同类网页模块标记行为的基础上，为接下来查看该类网页的用户推荐阅读或者标记建议。这种方式命中用户需求的概率极大；而且无论用户接受或者不接受推荐建议，其对当前网页的标记方式也将被系统记录，从而为系统的自我优化以及为以后访问同类网页上用户识别有效内容提供贡献参考数据，是一种“人人为我，我为人人”的系统演进模式，最大限度地满足用户对于识别网页内容的需求。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种网页内容识别方法，其特征在于，包括：

记录下每个用户对网址地址中网页模块的标记行为；

检测当前用户所请求的网页地址是否被数量达到预定阈值的用户标记过，是则将所述网页地址中被最多用户标记过的内容模块作为所述网页地址的有效内容；否则

2.如权利要求1所述的方法，其特征在于，所述记录下每个用户对网址地址中网页模块的标记行为包括：

记录下用户所标记的网页内容对应DOM节点信息。

3.如权利要求2所述的方法，其特征在于，所述记录下用户所标记的网页内容对应DOM节点信息包括：

记录用户所标记的网页内容对应的一个或者一组XPath信息。

4.如权利要求2或3所述的方法，其特征在于，所述将记录的被最多用户标记过的内容模块作为该网页地址的有效内容包括：

将所述网页地址中被数量最多的用户标记过的一个或多个DOM节点作为所述网页地址的有效内容。

5.如权利要求3所述的方法，其特征在于，将所述网页地址的上一级网址以及该上一级网址所具有的其他子网址中被最多用户标记过的内容模块作为网页地址对应的有效内容包括：

将所述网页地址的上一级网址以及该上一级网址所具有的其他子网址中被最多用户标记过的内容模块的Xpath信息直接作为该网页地址有效内容的Xpath信息。

6.如权利要求1、2、3或5所述的方法，其特征在于，根据系统所支持用户的情况，设定或修改预定阈值的值。

7.一种网页内容识别装置，包括：

检测模块，用于检测当前用户所请求的网页地址、网页地址的上一级网址以及所述上一级网址所具有的其他子网址是否被数量达到用户数阈值用户标记过，直至到达顶级域名，并当检测结果为是时，通知推介模块；