CN102968466B

CN102968466B - 基于网页分类的索引网络构建方法及其索引网构建器

Info

Publication number: CN102968466B
Application number: CN201210445658.4A
Authority: CN
Inventors: 蒋昌俊; 陈闳中; 闫春钢; 丁志军; 王鹏伟; 孙海春; 张洋劼
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2012-11-09
Filing date: 2012-11-09
Publication date: 2016-05-18
Anticipated expiration: 2032-11-09
Also published as: CN102968466A

Abstract

本发明涉及基于网页分类的索引网络构建方法及其索引网构建器。索引网构建器主要根据系统中的网页类，构建服务的索引网络。利用已经分类过的网页及网页的超链接，在网页类上构建一个完整的索引网。利用此索引网，可以挖掘出一个网页类与其他网页类的潜在关系，对于整个互联网中的网页给出一种索引网的组织管理方式，利用索引网可以根据用户提出的需求而给出一整套完整的服务方案。索引网模型对互联网中的海量网页给出了一个组织管理的方式，能够达成索引网模型对于互联网中网页的组织管理的要求，为网络信息服务系统实现奠定基础。

Description

基于网页分类的索引网络构建方法及其索引网构建器

技术领域

本发明涉及对互联网信息资源的管理与组织，具体涉及基于分类的海量网页的组织与管理方法以及实现该方法的软件模块。

背景技术

面对互联网海量规模的信息资源，搜索引擎已经成为人们生活和工作中必不可少的信息获取工具。搜索技术发展水平的高低，也因此不可避免的对互联网应用的便捷程度以及社会的信息化程度产生影响。根据中国互联网络信息中心(CNNIC)2011年7月的统计结果，我国4.85亿网民中使用搜索引擎的用户数量达到3.86亿，使用率达到79.6%，显示搜索引擎是网民群体中受众最广的网络应用。

在搜索引擎中，对用户需求搜索之后最终展示出来的仅仅是一个或者一些相关的网页或者内容。展示出来的内容仅仅是单一的对用户的需求理解，以及将用户需求与网页内容进行联系，是对用户需求进行初步的理解。

发明内容

本发明的目的在于克服现有技术的不足，通过索引网构建器实现一种基于网页分类的索引网络构建方法，其输入为已经分好类的网页，输出为一个建立在分好类网页基础上的索引网。构建出来的索引网主要目标是给出整个互联网中的网页一个组织管理的方式，利用索引网可以根据用户需求提出一个或者多个服务流程，是对用户需求的深度挖掘，方便用户收集和使用网络信息。

本发明是通过以下技术方案实现的：

一种基于网页分类的索引网络构建方法，包括如下步骤：

1）从数据库中网页查询出网页所属的网页类和网页中所有的超链接，交由多个子线程进行处理。

2）在子线程中，通过分析超链接，建立网页类之间的业务流程，以此来构建索引网子网。

3）当处理完所有的网页后，将所有的索引网子网进行汇总，构成整个索引网。

具体的说，所述基于网页分类的索引网络构建方法，其特征在于：

在预处理时，构建一个以网页url为主关键字，以url和网页所属类即classID为键值对的哈希表htbyAddress。

第一步，从存储在数据库中的specific_Libraries表提取到本地的weblist数组，并且选出其中一个网页。

第二步，从提取出的网页即weblist数组中的一项中找出这个网页所属的网页类即classID，并且记录下来，再找出这个网页的所有外链接，存储在weblist的outLinkedWebsites属性上。将classID和outLinkedWebsites作为参数传递给子线程partWebBulid，同时传递一个参数mapID，用于决定子线程操作的索引网子网。

第三步，在partWebBuild子线程中解析outLinkedWebsites字符串，找出其中的每个url，利用这个url在哈希表htbyAddress中找出对应的网页所属的类classID2。此时，根据mapID确定操作哪个索引子网(map0~map3之间一个索引网子网)。然后，将传递到partWebBuild线程中的classID和链出网页所属的类classID2之间边的权值加1。partWebBuild继续处理outLinkedWebsites中其他的url。如果outLinkedWebsites中的所有url已经处理完，则结束这个线程。

第四步，等待所有partWebBuild子线程全部结束，统计所有索引网子网上边的权值，并将所有索引网子网的边权值累加到索引网TotalMap上。

第五步，将索引网TotalMap上每一个有向边按照属性startID，endID，weight，存入数据库的IndexNet表中，其中startID表示有向边的起始网页类classID，endID表示有向边的终止网页类classID，weight表示这条有向边的权重，物理意义上表示两个网页类关联的紧密度。

所述索引网构建器，是网络信息服务系统中具体实现构建索引网方法的一个软件模块，能够将海量的网页利用分类和网页间的链接关系组织成索引网，它包括：

数据库部分，是唯一与外部进行交互的部分，由平台中的其他部分负责把网页数据写入数据库中；和

网页分类模块，则从数据库中提取出网页信息，并对网页进行分类，并将分类信息返回给数据库；和

构建索引网部分，则是基于网页分类模块，在分好类的网页的基础上，构建出一个索引网，并将索引网存入数据库中，供用户使用。至此，索引网构建器的工作结束。

与现有技术相比，本发明首次在网络信息处理中提出索引网的概念模型，索引网模型对互联网中的海量网页给出了一个组织管理的方式，能够达成索引网模型对于互联网中网页的组织管理的要求，为网络信息服务系统实现奠定基础。利用所述索引网，可以挖掘出一个网页类与其他网页类的潜在关系，对于整个互联网中的网页给出一种索引网的组织管理方式，利用索引网可以根据用户提出的需求而给出一整套完整的服务方案。

整个信息服务系统想要搭建的网络服务平台，是一个网络信息的服务中介。信息服务系统完成的主要功能是：通过接收并解析用户需求，查找和整合网络上已有的服务资源（包括网页），提供给用户多个可行的满足用户需求的服务方案建议。信息服务系统的实现借鉴Google进行信息检索的思路（后台网页预处理和前台服务查找两层的实现架构），分几个步骤完成网络信息服务平台的搭建。首先，通过预处理聚合网络服务资源，以网页功能（内容）相似度为判定依据，对网页进行分类。其次，以网页类为基本单元，构建服务的索引网络；结合网络环境时刻变化的特征，应用服务索引网络的应变规则及实现技术，给出一个时刻演化的服务索引网络。然后，在服务索引网络的基础上，给出算法，在服务索引网络上抽取满足具体用户需求的多个服务路径（方案）。

本发明创新性的提出了索引网模型，在这里，索引网是一个建立在网页分类基础上的，通过网页间链接建立起来的一种管理和组织互联网中的网页的模型。索引网模型是信息服务系统中提供信息服务的基础。在信息服务系统中，通过本发明索引网构建器来提供一种具体的构建索引网模型的方法，这种方法能够体现出索引网模型的组织与管理互联网中网页的要求与目标。

附图说明

图1网络信息服务系统整体架构图。

图2类的组成结构。

图3索引网构建器工作流程示意图。

图4索引网构建器模块原理框图。

具体实施方式

以下结合附图对本发明技术方案作进一步说明。

整个信息服务服务系统建立在传统的搜索引擎的基础之上，即：首先从互联网上抓取网页，将网页建立数据库进行存储，然后对网页建立倒排索引，保证传统的搜索引擎功能能够实现；其次，针对用户找信息难的问题，信息服务服务系统采用两个方面进行解决：（1）对用户需求进行分析和理解，最大限度的提供给用户有价值的信息；（2）对网页进行整理分类，提供给用户一套服务方案。首先根据DMOZ的人工分类目录，提取出类，每个类由类名和特征向量组成，具体如图2所示。然后，对抓取的网页按照提取到的类标准对网页进行分类，根据类中的网页之间的互相链接关系上升为类与类之间的链接关系，从而确定出类与类之间的一套索引网，进行存储，最后根据用户的输入在索引网络上抽取出不同的服务方案，返回给用户。

整个信息服务系统，可分成前台和后台两大部分。整个信息服务服务系统的工作流程如图1所示，该信息服务服务系统的具体功能为：

一方面，首先信息收集子系统中，使用爬虫对互联网的信息进行收集，再利用分类器，对爬取的信息进行分类整理，然后根据索引网构建器对分好类的网页进行构建索引网，方便对于用户服务流程的推荐，然后将构建的结果存入数据库。

另一方面，当用户的检索要求进来时，则根据用户需求分析定位器来完成对于用户需求的分析及定位，最终返回给用户界面满足用户需求的信息。

后台的任务即是通过网络爬虫将互联网上的网页爬取至本地，然后在逻辑上将网页分到网页类中，之后再由本发明的索引网构建器从网页类中获取网页，以这些网页为基础构建整个索引网络。

索引网构建器的任务，从网页类中获取网页，通过索引网构建器构建出一整个索引网络。而这个索引网，是存储于后台，不为用户所见，信息服务服务系统可以通过使用索引网即可提取出一个个服务流程。

本发明索引网构建器的具体工作流程如图3所示：

索引网构建器要构建整个索引网，需要对网页库中所有的网页进行操作。因此在预处理时，构建一个以网页url为主关键字，以url和网页所属类即classID为键值对的哈希表htbyAddress。

第一步，索引网构建器从存储在数据库中的specific_Libraries表提取到本地的weblist数组，并且选出其中一个网页。specific_Libraries是用来存储整个网页库的数据表，其中一个表项就是网页，这个表项中记录了在构建索引网过程中需要用到的与网页有关的数据。

第二步，由于在网页库中的所有网页已经由分类器分类，从第一步提取出的网页即weblist数组中的一项中找出这个网页所属的网页类即classID(用于唯一标识一个类的属性)，并且记录下来，再找出这个网页的所有外链接，存储在weblist的outLinkedWebsites属性上。将classID和outLinkedWebsites作为参数传递给子线程partWebBulid，同时传递一个参数mapID，用于决定子线程操作的索引网子网。

所述索引网构建器，是网络信息服务系统中具体实现构建索引网方法的一个软件模块，能够将海量的网页利用分类和网页间的链接关系组织成索引网，如图4所示的原理框图，它包括：

Claims

1.一种基于网页分类的索引网络构建方法，其特征在于，包括如下步骤：

1)从数据库中网页查询出网页所属的网页类和网页中所有的超链接，交由多个子线程进行处理；

2)在子线程中，通过分析超链接，建立网页类之间的业务流程，以此来构建索引网子网；

3)当处理完所有的网页后，将所有的索引网子网进行汇总，构成整个索引网；具体为：

在预处理时，构建一个以网页url为主关键字，以url和网页所属类即classID为键值对的哈希表htbyAddress；

第一步，索引网构建器从存储在数据库中的specific_Libraries表提取到本地的weblist数组，并且选出其中一个网页，specific_Libraries是用来存储整个网页库的数据表，其中一个表项就是网页，这个表项中记录了在构建索引网过程中需要用到的与网页有关的数据；

第二步，从提取出的网页即weblist数组中的一项中找出这个网页所属的网页类即classID，并且记录下来，再找出这个网页的所有外链接，存储在weblist的outLinkedWebsites属性上；将classID和outLinkedWebsites作为参数传递给子线程partWebBulid，同时传递一个参数mapID，用于决定子线程操作的索引网子网；

第三步，在partWebBuild子线程中解析outLinkedWebsites字符串，找出其中的每个url，利用这个url在哈希表htbyAddress中找出对应的网页所属的类classID2，此时，根据mapID确定操作哪个索引子网，然后，将传递到partWebBuild线程中的classID和链出网页所属的类classID2之间边的权值加1；partWebBuild继续处理outLinkedWebsites中其他的url；如果outLinkedWebsites中的所有url已经处理完，则结束这个线程；

第四步，等待所有partWebBuild子线程全部结束，统计所有索引网子网上边的权值，并将所有索引网子网的边权值累加到索引网TotalMap上；

第五步，将索引网TotalMap上每一个有向边按照属性startID、endID、weight，存入数据库的IndexNet表中，其中startID表示有向边的起始网页类classID，endID表示有向边的终止网页类classID，weight表示这条有向边的权重，物理意义上表示两个网页类关联的紧密度。