CN102968466B - 基于网页分类的索引网络构建方法及其索引网构建器 - Google Patents

基于网页分类的索引网络构建方法及其索引网构建器 Download PDF

Info

Publication number
CN102968466B
CN102968466B CN201210445658.4A CN201210445658A CN102968466B CN 102968466 B CN102968466 B CN 102968466B CN 201210445658 A CN201210445658 A CN 201210445658A CN 102968466 B CN102968466 B CN 102968466B
Authority
CN
China
Prior art keywords
web
webpage
indexing
web page
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210445658.4A
Other languages
English (en)
Other versions
CN102968466A (zh
Inventor
蒋昌俊
陈闳中
闫春钢
丁志军
王鹏伟
孙海春
张洋劼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201210445658.4A priority Critical patent/CN102968466B/zh
Publication of CN102968466A publication Critical patent/CN102968466A/zh
Application granted granted Critical
Publication of CN102968466B publication Critical patent/CN102968466B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及基于网页分类的索引网络构建方法及其索引网构建器。索引网构建器主要根据系统中的网页类,构建服务的索引网络。利用已经分类过的网页及网页的超链接,在网页类上构建一个完整的索引网。利用此索引网,可以挖掘出一个网页类与其他网页类的潜在关系,对于整个互联网中的网页给出一种索引网的组织管理方式,利用索引网可以根据用户提出的需求而给出一整套完整的服务方案。索引网模型对互联网中的海量网页给出了一个组织管理的方式,能够达成索引网模型对于互联网中网页的组织管理的要求,为网络信息服务系统实现奠定基础。

Description

基于网页分类的索引网络构建方法及其索引网构建器
技术领域
本发明涉及对互联网信息资源的管理与组织,具体涉及基于分类的海量网页的组织与管理方法以及实现该方法的软件模块。
背景技术
面对互联网海量规模的信息资源,搜索引擎已经成为人们生活和工作中必不可少的信息获取工具。搜索技术发展水平的高低,也因此不可避免的对互联网应用的便捷程度以及社会的信息化程度产生影响。根据中国互联网络信息中心(CNNIC)2011年7月的统计结果,我国4.85亿网民中使用搜索引擎的用户数量达到3.86亿,使用率达到79.6%,显示搜索引擎是网民群体中受众最广的网络应用。
在搜索引擎中,对用户需求搜索之后最终展示出来的仅仅是一个或者一些相关的网页或者内容。展示出来的内容仅仅是单一的对用户的需求理解,以及将用户需求与网页内容进行联系,是对用户需求进行初步的理解。
发明内容
本发明的目的在于克服现有技术的不足,通过索引网构建器实现一种基于网页分类的索引网络构建方法,其输入为已经分好类的网页,输出为一个建立在分好类网页基础上的索引网。构建出来的索引网主要目标是给出整个互联网中的网页一个组织管理的方式,利用索引网可以根据用户需求提出一个或者多个服务流程,是对用户需求的深度挖掘,方便用户收集和使用网络信息。
本发明是通过以下技术方案实现的:
一种基于网页分类的索引网络构建方法,包括如下步骤:
1)从数据库中网页查询出网页所属的网页类和网页中所有的超链接,交由多个子线程进行处理。
2)在子线程中,通过分析超链接,建立网页类之间的业务流程,以此来构建索引网子网。
3)当处理完所有的网页后,将所有的索引网子网进行汇总,构成整个索引网。
具体的说,所述基于网页分类的索引网络构建方法,其特征在于:
在预处理时,构建一个以网页url为主关键字,以url和网页所属类即classID为键值对的哈希表htbyAddress。
第一步,从存储在数据库中的specific_Libraries表提取到本地的weblist数组,并且选出其中一个网页。
第二步,从提取出的网页即weblist数组中的一项中找出这个网页所属的网页类即classID,并且记录下来,再找出这个网页的所有外链接,存储在weblist的outLinkedWebsites属性上。将classID和outLinkedWebsites作为参数传递给子线程partWebBulid,同时传递一个参数mapID,用于决定子线程操作的索引网子网。
第三步,在partWebBuild子线程中解析outLinkedWebsites字符串,找出其中的每个url,利用这个url在哈希表htbyAddress中找出对应的网页所属的类classID2。此时,根据mapID确定操作哪个索引子网(map0~map3之间一个索引网子网)。然后,将传递到partWebBuild线程中的classID和链出网页所属的类classID2之间边的权值加1。partWebBuild继续处理outLinkedWebsites中其他的url。如果outLinkedWebsites中的所有url已经处理完,则结束这个线程。
第四步,等待所有partWebBuild子线程全部结束,统计所有索引网子网上边的权值,并将所有索引网子网的边权值累加到索引网TotalMap上。
第五步,将索引网TotalMap上每一个有向边按照属性startID,endID,weight,存入数据库的IndexNet表中,其中startID表示有向边的起始网页类classID,endID表示有向边的终止网页类classID,weight表示这条有向边的权重,物理意义上表示两个网页类关联的紧密度。
所述索引网构建器,是网络信息服务系统中具体实现构建索引网方法的一个软件模块,能够将海量的网页利用分类和网页间的链接关系组织成索引网,它包括:
数据库部分,是唯一与外部进行交互的部分,由平台中的其他部分负责把网页数据写入数据库中;和
网页分类模块,则从数据库中提取出网页信息,并对网页进行分类,并将分类信息返回给数据库;和
构建索引网部分,则是基于网页分类模块,在分好类的网页的基础上,构建出一个索引网,并将索引网存入数据库中,供用户使用。至此,索引网构建器的工作结束。
与现有技术相比,本发明首次在网络信息处理中提出索引网的概念模型,索引网模型对互联网中的海量网页给出了一个组织管理的方式,能够达成索引网模型对于互联网中网页的组织管理的要求,为网络信息服务系统实现奠定基础。利用所述索引网,可以挖掘出一个网页类与其他网页类的潜在关系,对于整个互联网中的网页给出一种索引网的组织管理方式,利用索引网可以根据用户提出的需求而给出一整套完整的服务方案。
整个信息服务系统想要搭建的网络服务平台,是一个网络信息的服务中介。信息服务系统完成的主要功能是:通过接收并解析用户需求,查找和整合网络上已有的服务资源(包括网页),提供给用户多个可行的满足用户需求的服务方案建议。信息服务系统的实现借鉴Google进行信息检索的思路(后台网页预处理和前台服务查找两层的实现架构),分几个步骤完成网络信息服务平台的搭建。首先,通过预处理聚合网络服务资源,以网页功能(内容)相似度为判定依据,对网页进行分类。其次,以网页类为基本单元,构建服务的索引网络;结合网络环境时刻变化的特征,应用服务索引网络的应变规则及实现技术,给出一个时刻演化的服务索引网络。然后,在服务索引网络的基础上,给出算法,在服务索引网络上抽取满足具体用户需求的多个服务路径(方案)。
本发明创新性的提出了索引网模型,在这里,索引网是一个建立在网页分类基础上的,通过网页间链接建立起来的一种管理和组织互联网中的网页的模型。索引网模型是信息服务系统中提供信息服务的基础。在信息服务系统中,通过本发明索引网构建器来提供一种具体的构建索引网模型的方法,这种方法能够体现出索引网模型的组织与管理互联网中网页的要求与目标。
附图说明
图1网络信息服务系统整体架构图。
图2类的组成结构。
图3索引网构建器工作流程示意图。
图4索引网构建器模块原理框图。
具体实施方式
以下结合附图对本发明技术方案作进一步说明。
整个信息服务服务系统建立在传统的搜索引擎的基础之上,即:首先从互联网上抓取网页,将网页建立数据库进行存储,然后对网页建立倒排索引,保证传统的搜索引擎功能能够实现;其次,针对用户找信息难的问题,信息服务服务系统采用两个方面进行解决:(1)对用户需求进行分析和理解,最大限度的提供给用户有价值的信息;(2)对网页进行整理分类,提供给用户一套服务方案。首先根据DMOZ的人工分类目录,提取出类,每个类由类名和特征向量组成,具体如图2所示。然后,对抓取的网页按照提取到的类标准对网页进行分类,根据类中的网页之间的互相链接关系上升为类与类之间的链接关系,从而确定出类与类之间的一套索引网,进行存储,最后根据用户的输入在索引网络上抽取出不同的服务方案,返回给用户。
整个信息服务系统,可分成前台和后台两大部分。整个信息服务服务系统的工作流程如图1所示,该信息服务服务系统的具体功能为:
一方面,首先信息收集子系统中,使用爬虫对互联网的信息进行收集,再利用分类器,对爬取的信息进行分类整理,然后根据索引网构建器对分好类的网页进行构建索引网,方便对于用户服务流程的推荐,然后将构建的结果存入数据库。
另一方面,当用户的检索要求进来时,则根据用户需求分析定位器来完成对于用户需求的分析及定位,最终返回给用户界面满足用户需求的信息。
后台的任务即是通过网络爬虫将互联网上的网页爬取至本地,然后在逻辑上将网页分到网页类中,之后再由本发明的索引网构建器从网页类中获取网页,以这些网页为基础构建整个索引网络。
索引网构建器的任务,从网页类中获取网页,通过索引网构建器构建出一整个索引网络。而这个索引网,是存储于后台,不为用户所见,信息服务服务系统可以通过使用索引网即可提取出一个个服务流程。
本发明索引网构建器的具体工作流程如图3所示:
索引网构建器要构建整个索引网,需要对网页库中所有的网页进行操作。因此在预处理时,构建一个以网页url为主关键字,以url和网页所属类即classID为键值对的哈希表htbyAddress。
第一步,索引网构建器从存储在数据库中的specific_Libraries表提取到本地的weblist数组,并且选出其中一个网页。specific_Libraries是用来存储整个网页库的数据表,其中一个表项就是网页,这个表项中记录了在构建索引网过程中需要用到的与网页有关的数据。
第二步,由于在网页库中的所有网页已经由分类器分类,从第一步提取出的网页即weblist数组中的一项中找出这个网页所属的网页类即classID(用于唯一标识一个类的属性),并且记录下来,再找出这个网页的所有外链接,存储在weblist的outLinkedWebsites属性上。将classID和outLinkedWebsites作为参数传递给子线程partWebBulid,同时传递一个参数mapID,用于决定子线程操作的索引网子网。
第三步,在partWebBuild子线程中解析outLinkedWebsites字符串,找出其中的每个url,利用这个url在哈希表htbyAddress中找出对应的网页所属的类classID2。此时,根据mapID确定操作哪个索引子网(map0~map3之间一个索引网子网)。然后,将传递到partWebBuild线程中的classID和链出网页所属的类classID2之间边的权值加1。partWebBuild继续处理outLinkedWebsites中其他的url。如果outLinkedWebsites中的所有url已经处理完,则结束这个线程。
第四步,等待所有partWebBuild子线程全部结束,统计所有索引网子网上边的权值,并将所有索引网子网的边权值累加到索引网TotalMap上。
第五步,将索引网TotalMap上每一个有向边按照属性startID,endID,weight,存入数据库的IndexNet表中,其中startID表示有向边的起始网页类classID,endID表示有向边的终止网页类classID,weight表示这条有向边的权重,物理意义上表示两个网页类关联的紧密度。
所述索引网构建器,是网络信息服务系统中具体实现构建索引网方法的一个软件模块,能够将海量的网页利用分类和网页间的链接关系组织成索引网,如图4所示的原理框图,它包括:
数据库部分,是唯一与外部进行交互的部分,由平台中的其他部分负责把网页数据写入数据库中;和
网页分类模块,则从数据库中提取出网页信息,并对网页进行分类,并将分类信息返回给数据库;和
构建索引网部分,则是基于网页分类模块,在分好类的网页的基础上,构建出一个索引网,并将索引网存入数据库中,供用户使用。至此,索引网构建器的工作结束。

Claims (1)

1.一种基于网页分类的索引网络构建方法,其特征在于,包括如下步骤:
1)从数据库中网页查询出网页所属的网页类和网页中所有的超链接,交由多个子线程进行处理;
2)在子线程中,通过分析超链接,建立网页类之间的业务流程,以此来构建索引网子网;
3)当处理完所有的网页后,将所有的索引网子网进行汇总,构成整个索引网;具体为:
在预处理时,构建一个以网页url为主关键字,以url和网页所属类即classID为键值对的哈希表htbyAddress;
第一步,索引网构建器从存储在数据库中的specific_Libraries表提取到本地的weblist数组,并且选出其中一个网页,specific_Libraries是用来存储整个网页库的数据表,其中一个表项就是网页,这个表项中记录了在构建索引网过程中需要用到的与网页有关的数据;
第二步,从提取出的网页即weblist数组中的一项中找出这个网页所属的网页类即classID,并且记录下来,再找出这个网页的所有外链接,存储在weblist的outLinkedWebsites属性上;将classID和outLinkedWebsites作为参数传递给子线程partWebBulid,同时传递一个参数mapID,用于决定子线程操作的索引网子网;
第三步,在partWebBuild子线程中解析outLinkedWebsites字符串,找出其中的每个url,利用这个url在哈希表htbyAddress中找出对应的网页所属的类classID2,此时,根据mapID确定操作哪个索引子网,然后,将传递到partWebBuild线程中的classID和链出网页所属的类classID2之间边的权值加1;partWebBuild继续处理outLinkedWebsites中其他的url;如果outLinkedWebsites中的所有url已经处理完,则结束这个线程;
第四步,等待所有partWebBuild子线程全部结束,统计所有索引网子网上边的权值,并将所有索引网子网的边权值累加到索引网TotalMap上;
第五步,将索引网TotalMap上每一个有向边按照属性startID、endID、weight,存入数据库的IndexNet表中,其中startID表示有向边的起始网页类classID,endID表示有向边的终止网页类classID,weight表示这条有向边的权重,物理意义上表示两个网页类关联的紧密度。
CN201210445658.4A 2012-11-09 2012-11-09 基于网页分类的索引网络构建方法及其索引网构建器 Active CN102968466B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210445658.4A CN102968466B (zh) 2012-11-09 2012-11-09 基于网页分类的索引网络构建方法及其索引网构建器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210445658.4A CN102968466B (zh) 2012-11-09 2012-11-09 基于网页分类的索引网络构建方法及其索引网构建器

Publications (2)

Publication Number Publication Date
CN102968466A CN102968466A (zh) 2013-03-13
CN102968466B true CN102968466B (zh) 2016-05-18

Family

ID=47798604

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210445658.4A Active CN102968466B (zh) 2012-11-09 2012-11-09 基于网页分类的索引网络构建方法及其索引网构建器

Country Status (1)

Country Link
CN (1) CN102968466B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182393A (zh) * 2013-05-21 2014-12-03 中兴通讯股份有限公司 基于hash表的关键字映射处理方法和装置
CN108829704A (zh) * 2018-04-28 2018-11-16 安徽瑞来宝信息科技有限公司 一种大数据分布式挖掘分析服务技术

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101399818A (zh) * 2007-09-25 2009-04-01 日电(中国)有限公司 基于导航路径信息的主题相关网页过滤方法和系统
CN101957816A (zh) * 2009-07-13 2011-01-26 上海谐宇网络科技有限公司 基于多页面比较的网页元数据自动抽取方法和系统
CN102156733A (zh) * 2011-03-25 2011-08-17 清华大学 一种基于面向服务架构的搜索引擎及搜索方法
CN102609412A (zh) * 2011-01-07 2012-07-25 华东师范大学 基于rss的多线程图文信息同步爬取的控制方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100371932C (zh) * 2004-03-23 2008-02-27 南京大学 一种可扩展、可定制的主题集中式万维网爬虫设置方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101399818A (zh) * 2007-09-25 2009-04-01 日电(中国)有限公司 基于导航路径信息的主题相关网页过滤方法和系统
CN101957816A (zh) * 2009-07-13 2011-01-26 上海谐宇网络科技有限公司 基于多页面比较的网页元数据自动抽取方法和系统
CN102609412A (zh) * 2011-01-07 2012-07-25 华东师范大学 基于rss的多线程图文信息同步爬取的控制方法及系统
CN102156733A (zh) * 2011-03-25 2011-08-17 清华大学 一种基于面向服务架构的搜索引擎及搜索方法

Also Published As

Publication number Publication date
CN102968466A (zh) 2013-03-13

Similar Documents

Publication Publication Date Title
CN109710701B (zh) 一种用于公共安全领域大数据知识图谱的自动化构建方法
CN110781236A (zh) 一种构建政务大数据治理体系的方法
CN102968465B (zh) 网络信息服务平台及其基于该平台的搜索服务方法
CN108446368A (zh) 一种包装产业大数据知识图谱的构建方法及设备
CN102855309B (zh) 一种基于用户行为关联分析的信息推荐方法及装置
CN103294815A (zh) 基于关键字分类并有多种呈现方式的搜索引擎装置与方法
CN103984745A (zh) 分布式视频垂直搜索方法及系统
CN104063448B (zh) 一种视频领域相关的分布式微博数据抓取系统
CN105488231A (zh) 一种基于自适应表维度划分的大数据处理方法
CN104899258A (zh) 面向海量文献信息可交互可视化分析系统架构
CN105007314B (zh) 面向海量读者阅读数据的大数据处理系统
CN103226609A (zh) 一种web聚焦搜索系统的搜索方法
CN103412903A (zh) 基于兴趣对象预测的物联网实时搜索方法及系统
Mostajabi et al. A Systematic Review of Data Models for the Big Data Problem
CN103914487A (zh) 文档的采集、标识及关联的系统
CN109145016A (zh) 一种金融用互联网大数据检索系统
CN102968466B (zh) 基于网页分类的索引网络构建方法及其索引网构建器
CN114756567A (zh) 基于大数据技术的智慧政务服务分析平台
CN103914486A (zh) 文档的搜索及展现的系统
Cheng et al. Process and application of data mining in the university library
CN106257447A (zh) 云存储服务器的视频存储及检索方法、视频云存储系统
CN111813555B (zh) 基于互联网技术的超融合基础架构分层资源管理系统
CN110990745A (zh) 一种自动同步同类公共云资源的方法
CN117076463B (zh) 一种智慧城市多源数据汇聚存储系统
Wei et al. Analysising on the library services in the age of big data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant