CN103942233A

CN103942233A - 目录型网页的介绍页识别方法及装置

Info

Publication number: CN103942233A
Application number: CN201310026313.XA
Authority: CN
Inventors: 黄钰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Shenzhen Yayue Technology Co ltd
Priority date: 2013-01-21
Filing date: 2013-01-21
Publication date: 2014-07-23
Anticipated expiration: 2033-01-21
Also published as: CN103942233B

Abstract

本发明公开一种目录型网页的介绍页识别方法及装置，该识别方法包括以下步骤：接收页面浏览请求，获取页面数据；对页面数据进行分析，识别出具有准介绍块及准评论块的页面；根据介绍页的判定条件对所述具有准介绍块及准评论块的页面进行判断，以确定该页面是否为目录型网页的介绍页。本发明通过从页面数据中分析出具有准介绍块及准评论块的页面，然后再根据预先设置的判定条件对准介绍块及准评论块的数据进行分析，从而可以准确地识别出目录型网页的介绍页，从而根据该介绍页识别出目录型网页的其他内容页，提高了目录型网页的介绍页识别准确率。而且后续在进行小说介绍页的相关抽取时将能更有针对性，取得更好的抽取效果，以便更好地呈现给用户。

Description

目录型网页的介绍页识别方法及装置

技术领域

本发明涉及浏览器领域，尤其涉及一种目录型网页的介绍页识别方法及装置。

背景技术

随着移动互联网的发展，人们越来越倾向于用手机来阅读网络上各种各样的小说作品，但由于小说的www页面结构和内容都比较复杂，在手机上显示这些www页面有着天然的局限性，而与此同时，人们更加看重简洁的小说页面带来的美好感受，为了解决复杂的www小说页面和人们日益增长的用户体验之间的矛盾，一般对www小说进行页面的识别、抽取、转换后，再呈现给手机用户。因此对于页面的识别显得至关重要。

现有的关于www网页的识别有着很多种方法，比如基于朴素贝叶斯的文本分类、决策树、基于关联规则的分类等，该识别方法对于小说、论坛、博客、资讯等一级分类来说具有一定的作用，但是由于每种类型的文本都具有明显的差异性，因此采用现有的识别技术对区分更细粒度的网页类型进行识别时，所达到的效果并不佳。

发明内容

本发明的主要目的是提供一种目录型网页的介绍页识别方法，旨在提高目录型网页的介绍页识别准确率，以便于后续的抽取、转换处理更有针对性，将页面更好地呈现给用户。

本发明提供了一种目录型网页的介绍页识别方法，包括以下步骤：

接收页面浏览请求，获取页面数据；

对所述页面数据进行分析，识别出具有准介绍块及准评论块的页面；

根据介绍页的判定条件对所述具有准介绍块及准评论块的页面进行判断，以确定该页面是否为目录型网页的介绍页。

本发明还提供了一种目录型网页的介绍页识别装置，包括：

页面获取模块，用于接收页面浏览请求，获取页面数据；

页面分析模块，用于对所述页面数据进行分析，识别出具有准介绍块及准评论块的页面；

介绍页识别模块，用于根据介绍页的判定条件对所述具有准介绍块及准评论块的页面进行判断，以确定该页面是否为目录型网页的介绍页。

本发明通过从页面数据中分析出具有准介绍块及准评论块的页面，然后再根据预先设置的判定条件对准介绍块及准评论块的数据进行分析，从而可以准确地识别出目录型网页的介绍页，从而根据该介绍页识别出目录型网页的其他内容页，提高了目录型网页的介绍页识别准确率。而且后续在进行小说介绍页的相关抽取时将能更有针对性，取得更好的抽取效果，以便更好地呈现给用户。另外，本发明实施例所使用的词汇统计方式简单且实用。

附图说明

图1是本发明目录型网页的介绍页识别方法一实施例的流程示意图；

图2是本发明目录型网页的介绍页识别方法中分析页面数据，识别出具有准介绍块及准评论块的流程示意图；

图3是本发明目录型网页的介绍页识别方法中根据页面的网页地址过滤非介绍页的流程示意图；

图4是本发明目录型网页的介绍页识别装置一实施例的功能模块示意图；

图5是本发明目录型网页的介绍页识别装置中页面分析模块的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

以下结合说明书附图及具体实施例进一步说明本发明的技术方案。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，提出本发明目录型网页的介绍页识别方法一实施例。该实施例的目录型网页的介绍页识别方法包括以下步骤：

步骤S110、接收页面浏览请求，获取页面数据；

目录型网页是指以目录进行网页浏览的页面，例如网络文学作品、论文、报告等等。本实施例仅以网络文学作品为例对本发明进行描述。当用户端通过浏览器发起页面浏览请求时，浏览器后台将根据该页面浏览请求向网络服务器获取页面数据。该页面数据包括用户端希望访问的网络文学作品的页面，也包括嵌套在该网络文学作品页面中的其他页面或页面链接，例如新闻页面、资讯或广告等。

步骤S120、对页面数据进行分析，识别出具有准介绍块及准评论块的页面；

获得页面数据后，将对其进行分析，并识别出具有准介绍块及准评论块的页面。参照图2，上述步骤S120包括：

步骤S121、对页面数据进行分块分析，形成分块数据；

具体地，对页面数据进行解析获得DOM树，然后遍历DOM树，将页面划分为多个语义不相关的部分，各个部分构成网页中的不同板块，即语义块。本实施例中，主要基于视觉信息对页面数据进行分块分析，以形成分块数据。由于划分语义块时，一些视觉因素，例如背景颜色、字体颜色和大小、边框、逻辑块与逻辑块之间的间距等也可以用来分辨语义块，因此利用页面的视觉信息，结合DOM树对页面数据划分语义块，效果更佳。

步骤S122、根据介绍页的介绍块及评论块位置特征，识别出分块数据中具有准介绍块和准评论块的页面。

由于网络文学作品的介绍页中，一般介绍块的位置及评论块的位置基本差不多。本发明实施例中，预设该网络文学作品介绍页中介绍块的位置为：y>=120，y<max(768，屏高/2)，x<512，x+width>512，width>=height；评论块的位置为：y>=100，width>300，height>200。因此，在对页面数据划分语义块后，根据介绍页的介绍块及评论块的位置特征，可以识别出分块数据中具有准介绍块和准评论块的页面。

上述步骤S121之前还包括：

步骤S123、对页面数据中的网页地址进行识别，将非介绍页过滤，获得准介绍页。

具体地，参照图3，上述步骤S123包括：

步骤S1231、判断页面网页地址是否具备一二级首页页面或内容页面的特征；是则转入步骤S1233；否则转入步骤S1232；

步骤S1232、判断该页面包括的锚文本链接的网页地址是否与该页面的网页地址相似；是结束本流程；否则转入步骤S1233；

步骤S1233、将该页面过滤。

由于网络文学作品页面包括介绍页面、目录页面及内容页面，而且还包括嵌套在这些页面中的其他页面。因此，在对页面数据进行分析时，可以对页面的网页地址进行判断，可以过滤掉一二级首页或内容等页面。另外，由于网络文学介绍页中包括的锚文本链接基本是其他的介绍页，因此通过分析该页面所包括的锚文本链接的网页地址是否与该页面的网页地址相似，若相似则表示该页面为准介绍页；反之则表示该页面为非介绍页。最后，将非介绍页从页面数据中过滤，从而可以为后续的页面数据的分析节省大量的工作。

步骤S130、根据介绍页的判定条件对具有准介绍块及准评论块的页面进行判断，以确定该页面是否为目录型网页的介绍页。

该介绍页的判定条件根据网络文学作品介绍页普遍具有的特征而设置，例如介绍页的网页地址特征，介绍页的介绍块及评论块的位置特征、表示介绍页的介绍块及评论块的关键词汇集合等等。

一般网络文学作品介绍页具有其相应的介绍性词汇和评论性词汇，而且这些词汇的集合能够很好的标识一个网络文学作品介绍页，因此该集合在介绍页的识别过程中起到了很大的作用。本实施例中，这些词汇分为两类：一类是强关键词集合，它们的集合表示了介绍页一类的网页；另一类是普遍关键词集合，需要通过关键词的数量才能识别是否是介绍页，如下所示：

（1）介绍性关键词词汇

文本：作品风格、作品类型、作品类别、文章类型、内容标签、关键字、搜索关键字、授权状态、本书标签、类别、本月、本周、字数、点击、推荐、月点击、周点击、月推荐、周推荐、总点击、总推荐、总字数、全文字数、完成字数、出版社、定价、文章状态、全文长度、首发状态、授权级别、写作进程、更新时间、更新日期、书号、作者、阅读指数、推荐指数；

链接：JAR下载、ZIP下载、电子书下载、txt下载、全文阅读、开始阅读、单击阅读、点击阅读、加入书架、加入收藏；

文本或链接：作者推荐、作者介绍、作者公告、作者信息、作者其他作品、简介、作品信息、作品相关、作品简介、其它作品、作品详情、内容介绍、内容简介、总章节、最新章节、作者简介、详细介绍、推荐本书；

上述文本词汇、链接词汇以及文本或链接词汇为介绍性普遍关键词集合。而介绍性强关键词集合：作品信息、作者信息、内容介绍、内容简介、点击阅读、简介、出版社、定价、作者。

（2）评论性关键词词汇

文本：发表人、回复时间、点击数、回复数、回复人、写道、发表于、作者回复、日期、发表日期、发表时间、评论员、标题、内容、秀才、儒生、进士、举人、学童、贡生、举报；

链接：顶、发表评论、全部评论、精华评论、回复最多、查看全部回复、全部书评、快速发表；

文本或链接：评论、支持、反对、发表、书评、精华、置顶、版主、回复、楼、楼主、收起、展开；

上述文本词汇、链接词汇以及文本或链接词汇为评论性普遍关键词集合。而评论性强关键词集合：评论、书评、回复、发表、版主、楼主、标题、内容。

在划分语义块后，提取准介绍块及准评论块中的关键词集合，并根据网页地址特征及该提取的关键词集合综合判断该页面是否为介绍页。如下F1-F6所示为小说介绍页判定的特征集：

F1：网页地址含有介绍页标识关键词；

F2：所提取的准介绍块的关键词集合中具有强介绍性关键词组合；

F3：所提取的准评论块的关键词集合中具有强评论性关键词组合；

F4：所提取的准评论块的关键词集合中关键词的数量大于第三阈值；

F5：所提取的准介绍块的关键词集合中关键词的数量大于第二阈值；

F6：所提取的准介绍块的关键词集合中关键词的数量大于第一阈值。

通过对小说介绍页的分析，对特征F1-F6进行了特征组合，生成(1)-(3)共3个判定条件：

（1）F1与F2同时成立；

（2）F6成立；

（3）F5成立的同时，F1-F4中任一特征成立。

本发明实施例中的一实施方式中，可以仅判断一个判定条件，以判定条件（1）为例，判定过程如下所示：

判断页面的网页地址中是否含有介绍页标识关键词，其中介绍页标识关键词为介绍页的网页地址中的特有关键词，例如“info”关键词，但是“chapter_info”关键词除外；当网页地址中含有介绍页标识关键词时，提取准介绍块的关键词集合，并判断该准介绍块的关键词集合中是否具有强介绍性关键词组合；当准介绍块的关键词集合中具有前面所述的强介绍性关键词组合，则确定该页面是介绍页，否则确定该页面是非介绍页。

以判定条件（2）为例，判定过程如下所示：

提取准介绍块的关键词集合，判断该准介绍块的关键词集合中的关键词数量是否大于第一阈值；是则确定该页面是介绍页，否则确定该页面是非介绍页。该准介绍块的关键词集合可包括强介绍性关键词及其他一般的介绍性关键词。对分块数据进行文字识别，并提取准介绍块的关键词，并统计该关键词集合中关键词的个数。该第一阈值大于第二阈值。本发明实施例中，第一阈值为7。

以判定条件（3）为例，判定过程如下所示：

提取准介绍块的关键词集合，判断该准介绍块的关键词集合中的关键词数量是否大于第二阈值；当所述准介绍块的关键词集合中的关键词数量大于第二阈值时，则判断页面的网页地址中是否含有介绍页标识关键词；或者判断所述准介绍块的关键词集合中是否具有强介绍性关键词组合；或者提取准评论块的关键词集合后，判断所提取的准评论块的关键词集合中是否具有强评论性关键词组合；或者提取准评论块的关键词集合后，判断所提取的准评论块的关键词集合中的关键词数量是否大于第三阈值；并在任一判断为是时，确定该页面是介绍页，当所有判断均为否时，确定该页面是非介绍页。上述准介绍块的关键词集合中的关键词数量大于第二阈值后的四个判断中，当任一判断结果为是时，则停止其余的判断步骤，并确定该页面是介绍页。当判断结果均为否时，确定该页面是非介绍页。本发明实施例中，第二阈值为4，第三阈值为5。另外，上述准介绍块的关键词集合中的关键词数量大于第二阈值后的四个判断的顺序没有限制，可根据具体情况而调整。

本发明另一实施方式中，可以分别判断上述三个条件，若有任意一个条件满足，则确定该页面是介绍页；若三个条件均不满足，则确定该页面是非介绍页。例如，判断条件（1），当条件（1）满足时则停止条件（2）及条件（3）的判断，并确定该页面是介绍页，当条件（1）不满足时则判断条件（2）；当条件（2）还不满足时则判断条件（3），直到确定该页面是否为介绍页。当然上述条件（1）~（3）的判断顺序没有限制，可根据具体情况而调整。

本发明实施例通过对分块数据中准介绍块及准评论块中的关键词进行统计，并根据该统计的关键词对页面进行识别，从而根据该介绍页识别出目录型网页的其他内容页，提高了网络文学作品介绍页的识别准确率。而且后续在进行小说介绍页的相关抽取时将能更有针对性，取得更好的抽取效果，以便更好地呈现给用户。另外，本发明实施例所使用的词汇统计方式简单且实用。

参照图4，提出本发明目录型网页的介绍页识别装置一实施例。该实施例的目录型网页的介绍页识别装置包括：

页面获取模块110，用于接收页面浏览请求，获取页面数据；

页面分析模块120，用于对页面数据进行分析，识别出具有准介绍块及准评论块的页面；

介绍页识别模块130，用于根据介绍页的判定条件对具有准介绍块及准评论块的页面进行判断，以确定该页面是否为目录型网页的介绍页。

参照图5，上述页面分析模块120包括：

分块分析单元121，用于对页面数据进行分块分析，形成分块数据；

分块识别单元122，用于根据介绍页的介绍块及评论块位置特征，识别出分块数据中具有准介绍块和准评论块的页面；

页面过滤单元123，用于对页面数据中的网页地址进行识别，将非介绍页过滤，获得准介绍页。

上述目录型网页是指以目录进行网页浏览的页面，例如网络文学作品、论文、报告等等。本实施例仅以网络文学作品为例对本发明进行描述。当用户端通过浏览器发起页面浏览请求时，页面获取模块110将根据该页面浏览请求向网络服务器获取页面数据。该页面数据包括用户端希望访问的网络文学作品的页面，也包括嵌套在该网络文学作品页面中的其他页面或页面链接，例如新闻页面、资讯或广告等。因此，获得该页面数据后，页面分析模块120将对其进行分析，并识别出具有准介绍块及准评论块的页面，然后介绍页识别模块130再根据所述网络文学作品的介绍页的判定条件判断该页面是否为介绍页。该介绍页的判定条件根据网络文学作品介绍页普遍具有的特征而设置，例如介绍页的网页地址特征，介绍页的介绍块及评论块的位置特征、表示介绍页的介绍块及评论块的关键词汇集合等等。

如下F1-F6所示为小说介绍页判定的特征集：

F1：网页地址含有介绍页标识关键词；

F4：所提取的准评论块的关键词集合中关键词的数量大于第二阈值；

F5：所提取的准介绍块的关键词集合中关键词的数量大于第一阈值；

F6：所提取的准介绍块的关键词集合中关键词的数量大于第三阈值。

上述第三阈值大于第一阈值。本发明实施例中，第三阈值为7，第一阈值为4，第二阈值为5。

（1）F1与F2同时成立；

（2）F6成立；

（3）F5成立的同时，F1或F2或F3或F4成立。

本发明实施例中的一实施方式中，可以仅判断一个条件，例如仅判断F1与F2是否同时成立，如果是则确定该页面是介绍页，否则确定该页面是非介绍页。另一实施方式中，可以分别判断上述三个条件，若有任意一个条件满足，则确定该页面是介绍页；若三个条件均不满足，则确定该页面是非介绍页。例如，判断条件（1），当条件（1）满足时则停止条件（2）及条件（3）的判断，并确定该页面是介绍页，当条件（1）不满足时则判断条件（2）；当条件（2）还不满足时则判断条件（3），直到确定该页面是否为介绍页。当然上述条件（1）~（3）的顺序没有限制，可根据具体情况而调整。

本发明实施例通过对分块数据中准介绍块及准评论块中的关键词进行统计，并根据该统计的关键词对页面进行识别，从而根据该介绍页识别出目录型网页的其他内容页，提高了网络文学作品介绍页的识别准确率。后续在进行小说介绍页的相关抽取时将能更有针对性，取得更好的抽取效果，以便更好地呈现给用户。另外，本发明实施例所使用的词汇统计方式简单且实用。

本发明实施例的目录型网页的介绍页识别装置，与前述的方法实施例的构思和原理相同，因此在该实施例中对与方法实施例中相同的部分不再赘述。

本领域技术人员可以理解实施例中的系统中的模块可以按照实施例描述进行分布于实施例的系统中，也可以进行相应变化位于不同于本实施例的一个或多个系统中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

以上所述仅为本发明的优选实施例，并非因此限制其专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种目录型网页的介绍页识别方法，其特征在于，包括以下步骤：

接收页面浏览请求，获取页面数据；

2.根据权利要求1所述的目录型网页的介绍页识别方法，其特征在于，所述对页面数据进行分析，识别出具有准介绍块及准评论块的页面包括：

对页面数据进行分块分析，形成分块数据；

根据介绍页的介绍块及评论块位置特征，识别出所述分块数据中具有准介绍块和准评论块的页面。

3.根据权利要求2所述的目录型网页的介绍页识别方法，其特征在于，所述对页面数据进行分块分析，形成分块数据之前包括：

对所述页面数据中的网页地址进行识别，将非介绍页类型的网页地址过滤，获得准介绍页。

4.根据权利要求3所述的目录型网页的介绍页识别方法，其特征在于，所述对页面数据中的网页地址进行识别，将非介绍页过滤，获得准介绍页包括：

判断页面网页地址是否具备一二级首页或内容页的特征；

若是，则将其过滤；

若否，则判断该页面包括的锚文本连接的网页地址是否与该页面的网页地址相似，并在判断该页面包括的锚文本连接的网页地址与该页面的网页地址不相似时，将其过滤。

5.根据权利要求1-4任一项所述的目录型网页的介绍页识别方法，其特征在于，所述根据介绍页的判定条件对具有准介绍块及准评论块的页面进行判断，以确定该页面是否为目录型网页的介绍页包括：

判断页面的网页地址中是否含有介绍页标识关键词；

是则提取准介绍块的关键词集合，并判断该准介绍块的关键词集合中是否具有强介绍性关键词组合；

当所述准介绍块的关键词集合中具有强介绍性关键词组合时，确定该页面是介绍页。

6.根据权利要求1-4任一项所述的目录型网页的介绍页识别方法，其特征在于，所述根据介绍页的判定条件对具有准介绍块及准评论块的页面进行判断，以确定该页面是否为目录型网页的介绍页包括：

提取准介绍块的关键词集合，判断该准介绍块的关键词集合中的关键词数量是否大于第一阈值；是则确定该页面是介绍页。

7.根据权利要求1-4任一项所述的目录型网页的介绍页识别方法，其特征在于，所述根据介绍页的判定条件对具有准介绍块及准评论块的页面进行判断，以确定该页面是否为目录型网页的介绍页包括：

提取准介绍块的关键词集合，判断该准介绍块的关键词集合中的关键词数量是否大于第二阈值；

当所述准介绍块的关键词集合中的关键词数量大于第二阈值时，则判断页面的网页地址中是否含有介绍页标识关键词；或者判断所述准介绍块的关键词集合中是否具有强介绍性关键词组合；或者提取准评论块的关键词集合，并判断所提取的准评论块的关键词集合中是否具有强评论性关键词组合；或者提取准评论块的关键词集合，并判断所提取的准评论块的关键词集合中的关键词数量是否大于第三阈值；并在任一判断为是时，确定该页面是介绍页。

8.一种目录型网页的介绍页识别装置，其特征在于，包括：

页面获取模块，用于接收页面浏览请求，获取页面数据；

9.根据权利要求8所述的目录型网页的介绍页识别装置，其特征在于，所述页面分析模块包括：

分块分析单元，用于对页面数据进行分块分析，形成分块数据；

分块识别单元，用于根据介绍页的介绍块及评论块位置特征，识别出所述分块数据中具有准介绍块和准评论块的页面。

10.根据权利要求9所述的目录型网页的介绍页识别装置，其特征在于，所述页面分析模块还包括：

页面过滤单元，用于对所述页面数据中的网页地址进行识别，将非介绍页类型的网页地址过滤，获得准介绍页。

11.根据权利要求10所述的目录型网页的介绍页识别装置，其特征在于，所述页面过滤单元用于：

判断页面网页地址是否具备一二级首页或内容页的特征；

若是，则将其过滤；

若否，则判断该页面包括的锚文本连接的网页地址是否与该页面的网页地址相似，并在判断该页面包括的锚文本连接的网页地址是否与该页面的网页地址不相似时，将其过滤。

12.根据权利要求8-11任一项所述的目录型网页的介绍页识别装置，其特征在于，所述介绍页识别模块用于：

判断页面的网页地址中是否含有介绍页标识关键词；

13.根据权利要求8-11任一项所述的目录型网页的介绍页识别装置，其特征在于，所述介绍页识别模块用于：

14.根据权利要求8-11任一项所述的目录型网页的介绍页识别装置，其特征在于，所述介绍页识别模块用于：