CN102968465B - 网络信息服务平台及其基于该平台的搜索服务方法 - Google Patents

网络信息服务平台及其基于该平台的搜索服务方法 Download PDF

Info

Publication number
CN102968465B
CN102968465B CN201210445457.4A CN201210445457A CN102968465B CN 102968465 B CN102968465 B CN 102968465B CN 201210445457 A CN201210445457 A CN 201210445457A CN 102968465 B CN102968465 B CN 102968465B
Authority
CN
China
Prior art keywords
web
webpage
user
web page
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210445457.4A
Other languages
English (en)
Other versions
CN102968465A (zh
Inventor
蒋昌俊
陈闳中
闫春钢
丁志军
王鹏伟
孙海春
郭宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201210445457.4A priority Critical patent/CN102968465B/zh
Publication of CN102968465A publication Critical patent/CN102968465A/zh
Application granted granted Critical
Publication of CN102968465B publication Critical patent/CN102968465B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种网络信息服务平台及其基于该平台的搜索服务方法,属于一种新的搜索引擎及其面向搜索的交互方法。网络信息服务平台整体架构分成前台和后台两大部分,其特征在于,所述后台架构底层是Hadoop的分布式文件系统,上面搭载HBase数据库,通过Master节点控制网页爬虫、全文索引器、分类器和索引网构建器;所述前台架构底层也为Hadoop分布式文件系统,上面搭载HBase数据库,通过Master节点控制用户需求分析定位器、推荐模块和最终呈现模块。本发明的平台最终给用户呈现的结果是一条信息流程或者一套服务方案而不是单纯的网页链接。

Description

网络信息服务平台及其基于该平台的搜索服务方法
技术领域
本发明涉及一种新的搜索引擎及其面向搜索的交互方法。
背景技术
日常生活中,当我们需要查询某个自己未知的信息时,往往首先会想到搜索引擎,想通过搜索引擎来获取自己想要的信息。而目前网络上现有的搜索引擎林林总总,大同小异,根据其工作方式的不同大致可以分为:全文搜索引擎,目录搜索引擎以及元搜索引擎。全文搜索引擎从网站提取信息建立网页数据库,当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,就根据网页中关键词的匹配程度、出现的位置、频次、链接质量计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。这类搜索引擎呈现的结果是各网页的标题,它的特点是搜全率比较高,比较著名的全文搜索引擎有Google和百度。目录搜索引擎严格意义上不能称为真正的搜索引擎,它只是按目录分类的网站链接列表而已,用户直接可以根据分类信息找到所需要的信息,这一类中最具代表性的莫过于像新浪,搜狐,网易和Yahoo!等门户网站。元搜索引擎则是接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户,在搜索结果排列来看,有的直接按来源排列搜索结果,有的则按自定的规则将结果重新排列组合。随着用户需求的不断细分,一种叫垂直搜索的引擎开始逐步兴起。它不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索要求,比如机票搜索、旅游搜索、生活搜索、视频搜索等,在其特定的搜索领域,查询的方式多种多样,有更好的用户体验。
但上述搜索引擎都是通过用户输入关键字来对存储在后台数据库内的网页进行匹配,然后按事先设定的要求以一定顺序将网页链接返回给用户,呈现在用户面前的仅仅是一个个网页的标题,可以说是一个点到点的搜索过程。
发明内容
本发明的目的在于克服现有技术的不足,本发明信息服务平台以用户的需求得到准确定位并以此构建好相关网页类索引网为基础,最终呈现给用户服务方案和信息流程。
本发明技术方案:
一种网络信息服务平台,该网络信息服务平台整体架构分成前台和后台两大部分,其特征在于,所述后台架构底层是Hadoop的分布式文件系统,上面搭载HBase数据库,通过Master节点控制网页爬虫、全文索引器、分类器和索引网构建器;所述前台架构底层也为Hadoop分布式文件系统,上面搭载HBase数据库,通过Master节点控制用户需求分析定位器、推荐模块和最终呈现模块;
所述后台的任务是通过网络爬虫将互联网上的网页爬取至本地,送入全文索引器中进行倒排索引,生成索引文件存入数据库,然后分类器在逻辑上将网页分到网页类中,之后再由索引网构建器从网页类中获取网页,以这些网页为基础构建整个索引网络;所述的前台的任务就是当用户提出他的需求之后,将其定位到索引网的网页类中,抽取出索引子网并返回匹配到的网页链接;用户可以点击索引子网的网页类节点来选择自己满意的服务流程;
所述网络信息服务系统平台,它包括信息收集子系统,该信息收集子系统又包括爬虫和网页特征向量构建器,所述爬虫会将互联网上的网页爬取回来存储在数据库中;所述网页特征向量构建器是通过网页类的标准网页以及网页类名构建出一个能准确表示网页类特性的工具;
它还包括全文索引器,当信息收集子系统将网页信息收集回来并进行特征向量的构建后,送入全文索引器进行倒排索引;
它还包括分类器,从数据库中提取出网页信息,并对网页进行分类,并将分类信息返回给数据库;以及信息收集子系统将网页信息收集之后会送入全文索引器进行一个倒排索引,生成的索引文件送入分类器中对每个网页进行分类;
它还包括索引网构建器,需要对数据库中所有的网页进行操作,其任务是能够将海量的网页利用分类和网页间的链接关系组织成索引网,信息服务服务系统可以通过使用索引网即可提取出一个个服务流程;
它还包括数据库,与系统外部进行交互,实时获得信息更新,由分类器和爬虫负责把网页数据写入数据库中;
还包括用户需求分析定位器,理解用户输入的信息并将用户的输入信息定位到数据库的基础类中,每个类中都包含有和该类相关的网页;
它还包括最终呈现模块,最终各个索引子网匹配到的网页链接和用户点击索引子网形成的服务流程由该呈现模块输出给用户。
基于上述平台的搜索服务方法,其特征在于,上述整个信息服务服务系统,一方面,首先信息收集子系统中,使用爬虫对互联网的信息进行收集,再利用分类器,对爬取的信息进行分类整理,然后根据索引网构建器对分好类的网页进行构建索引网,方便对于用户服务流程的推荐,然后将构建的结果存入数据库;
另一方面,当用户的检索要求进来时,则根据用户需求分析定位器来完成对于用户需求的分析及定位,最终返回给用户界面满足用户需求的信息;
其流程包括如下步骤:
1)  已经建立好了网页类的索引网。
2)  用户输入关键词。
3)  将关键词来匹配网页类的特征向量。
4)  将用户需求定位到网页类。
5)  根据不同的情况抽取出服务流程,并且用户可以自主选择。
本发明所开发的网络服务平台其本质也是一个搜索引擎,但本发明的平台最终给用户呈现的结果是一条信息流程或者一套服务方案而不是单纯的网页链接。最终呈现的这套服务流程或者这条信息流程的获取需要建立在用户的需求已经准确定位到相应的一个或者多个网页类中,并且构建好相关类与类之间的索引网的基础上,最后本发明通过一定的算法并结合用户的实际需求去抽取这个服务方案或者信息流程。这个算法的思路为:用户通过输入关键词表达需求,将这个关键词与网页进行全匹配之后通过Lucene全文索引倒排索引,列出前若干个网页,判断前若干个网页属于哪个网页类的个数最多就将这个关键词定位到这个网页类中,并根据网页类与网页类之间的相似度抽取出索引子网,索引子网中包含定位到的网页类与其所扩展的网页类,用户可以根据自己的个人实际需求进行选择其他扩展网页类,选择一个扩展网页类之后会将此网页类作为中心,依照之前索引网的呈现方式重新呈现一张索引网,用户可以继续点击,最后会在前台页面中会根据用户的选择呈现出一条服务流程。在最终服务方案的呈现这部分,本发明平台返回给用户的是一条服务流程或者一张索引子网,同时本发明也会按一定顺序将网页链接与标题呈现给用户供其进行参考。
本发明提出的思想是通过准确分析用户的需求最终呈现给用户一条信息流程或者一套服务方案,可以说是一个点到面的搜索过程。在这里,服务方案或者信息流程可以说就是一系列搜索结果按用户的特定需求进行整合与排列而得到的最终答案,这里的搜索结果是一个一个的网页类,网页类里面包含了很多属于这个类的网页,用户将会得到更精确的信息。
整个信息服务系统想要搭建的网络服务平台,是一个网络信息的服务中介。系统完成的主要任务是:通过接收并解析用户需求,查找和整合网络上已有的服务资源(包括网页),提供给用户多个可行的满足用户需求的服务方案建议。信息服务系统的实现借鉴Google进行信息检索的思路(后台网页预处理和前台服务查找两层的实现架构),分几个步骤完成网络信息服务平台的搭建。首先,通过预处理聚合网络服务资源,以网页功能(内容)相似度为判定依据,对网页进行分类。其次,以网页类为基本单元,构建服务的索引网络;结合网络环境时刻变化的特征,应用服务索引网络的应变规则及实现技术,给出一个时刻演化的服务索引网络。然后,在服务索引网络的基础上,给出算法,在服务索引网络上抽取满足具体用户需求的多个服务路径(方案)。本发明的创新点:1)将一个类同时扩展出多个相关类,2)得到一条服务流程。
附图说明
图1本发明网络信息服务系统整体架构图。
图2本发明网络服务平台整体架构中的后台架构。
图3本发明网络服务平台整体架构中的前台架构。
图4类的组成结构。
图5网页特征向量构建器基本架构图。
图6 网页特征向量构建器工作流程图。
图7扩展特征向量图。
图8索引网构建器工作流程。
图9 用户需求分析定位器主要功能。
图10特征向量扩展流程图。
图11需求定位流程图。
图12实施例2中服务方案的获取过程。
图13实施例2情况1中服务流程的抽取。
图14实施例2情况2中服务流程的抽取。
图15实施例2情况3中服务流程的抽取。
具体实施方式
以下结合附图对本发明技术方案作进一步说明。
实施例1信息服务服务系统(即网络服务平台)介绍
整个信息服务服务系统建立在传统的搜索引擎的基础之上,即:首先从互联网上抓取网页,将网页建立数据库进行存储,然后对网页建立倒排索引,保证传统的搜索引擎功能能够实现;其次,针对用户找信息难的问题,信息服务服务系统采用两个方面进行解决:(1)对用户需求进行分析和理解,最大限度的提供给用户有价值的信息;(2)对网页进行整理分类,提供给用户一套服务方案。首先根据DMOZ的人工分类目录,提取出类,每个类由类名和特征向量组成,具体如图4所示。然后,对抓取的网页按照提取到的类标准对网页进行分类,根据类中的网页之间的互相链接关系上升为类与类之间的链接关系,从而确定出类与类之间的一套索引网,进行存储,最后根据用户的输入在索引网络上抽取出不同的服务方案,返回给用户。
本发明所开发的网络服务平台,其整体架构如图2、图3所示:分成前台和后台两大部分。后台架构底层是Hadoop的分布式文件系统,上面搭载HBase数据库,通过Master节点控制网页爬虫、全文索引器、分类器和索引网构建器。前台架构底层也为Hadoop分布式文件系统,上面搭载HBase数据库,通过Master节点控制用户需求分析定位器、推荐模块和最终呈现模块。
所述后台的任务是通过网络爬虫将互联网上的网页爬取至本地,送入全文索引器中进行倒排索引,生成索引文件存入数据库,然后分类器在逻辑上将网页分到网页类中,之后再由索引网构建器从网页类中获取网页,以这些网页为基础构建整个索引网络。
所述的前台的任务就是当用户提出他的需求之后,将其定位到索引网的网页类中,抽取出索引子网并返回匹配到的网页链接。用户可以点击索引子网的网页类节点来选择自己满意的服务流程。同时很有可能当用户提出的需求之后,通过用户需求的定位和分析,系统能够直接抽取出服务流程呈现给用户,这是系统中的推荐模块实现的。
如图1所示的本发明系统的原理模块框图,整个信息服务服务系统:
包括信息收集子系统,该信息收集子系统又包括爬虫和网页特征向量构建器,所述爬虫会将互联网上的网页爬取回来存储在数据库中,包括网页的关键词、描述、URL等;所述网页特征向量构建器是通过网页类的标准网页以及网页类名构建出一个能准确表示网页类特性的工具,这里的标准网页,是由用户给出或者系统自己寻找出来的表征网页特性的网页;
还包括全文索引器,当信息收集子系统将网页信息收集回来并进行特征向量的构建后,送入全文索引器进行倒排索引;
还包括分类器,从数据库中提取出网页信息,并对网页进行分类,并将分类信息返回给数据库;以及信息收集子系统将网页信息收集之后会送入全文索引器进行一个倒排索引,生成的索引文件送入分类器中对每个网页进行分类;
还包括索引网构建器,需要对数据库中所有的网页进行操作,其任务是能够将海量的网页利用分类和网页间的链接关系组织成索引网,信息服务服务系统可以通过使用索引网即可提取出一个个服务流程;
还包括数据库,与系统外部进行交互,实时获得信息更新,由分类器和爬虫负责把网页数据写入数据库中;
还包括用户需求分析定位器,理解用户输入的信息并将用户的输入信息定位到数据库的基础类中,每个类中都包含有和该类相关的网页;
还包括最终呈现模块,最终各个索引子网匹配到的网页链接和用户点击索引子网形成的服务流程由该呈现模块输出给用户。
上述整个信息服务服务系统,一方面,首先信息收集子系统中,使用爬虫对互联网的信息进行收集,再利用分类器,对爬取的信息进行分类整理,然后根据索引网构建器对分好类的网页进行构建索引网,方便对于用户服务流程的推荐,然后将构建的结果存入数据库。另一方面,当用户的检索要求进来时,则根据用户需求分析定位器来完成对于用户需求的分析及定位,最终返回给用户界面满足用户需求的信息。
如图5所示的网页类特征向量构建器的基本架构,在整个特征向量构建器中,包含用户接口、网页分析器和扩展器三个重要组成部分,爬虫将用户给定的网页类中标准网页爬取回来,交由网页分析器提取其中的关键信息组成网页类的特征向量,其中:
所述用户接口,用于与用户进行直接交互,获取用户需要组建的网页类的类名,以及用户可以提供的若干该网页类中的标准网页。
所述爬虫,即用来爬取互联网中的指定网页。
所述网页分析器,即针对网页类特征向量的构建,做针对性的对网页进行分析,是整个网页类特征向量构建器的主要部分。
所述扩展器是在用户给定的标准网页仍然不能构建出完整的网页类特征向量时,用于补充网页类特征向量的。
如图6所示网页特征向量的构建基本流程:
第一步:通过接口,获取用户的请求,所述请求包括用户需要生成的类的类名(必须)和若干符合该类性质的标准网页网址。标准网页,是用户给出的能够表征网页类特性的一组网页,例如google等搜索引擎使用的标准网页分类网站dmoz里面提出的每个类里面的网页,这种类似的数量足且能表征网页类特性的网页,就是标准网页。
第二步:将这些标准网页的网址交给爬虫,由爬虫将这些用户提供的标准网页爬回本地,以进一步的分析。
第三步:由网页分析器分析网页中的关键信息,如keywords, title, description等等,也可以对文本中的主要信息进行分析,根据不同部分的单词出现频率给予不同的权重,确定一组词作为网页类的特征向量。
第四步,如果在第三步中给予的网页类特征向量中词语个数足够描述网页类的特性的话,即返回给用户这个特征向量,否则进入第五步将网页类的类名交由扩展器,由扩展器使用网页类的类名将网页类的特征向量进行扩展,尽力达到能描述网页类特性的目的。
第五步:此时表示用户给定的标准网页不足以构成一个能完整反映网页类的特征向量。扩展器内部需要调用爬虫,网页分析器和开放搜索引擎或本地搜索引擎的API,其工作流程如图7所示。如图7所示:通过接口,获取第四步传过来的网页类的类名,然后交由搜索引擎的API或者其他分析器,获取有关这个类名的最相关的一部分网页,例如,可以将网页类类名交由Bing搜索引擎搜索,获取其中前50个最相关网页,作为系统扩展出来的标准网页。用爬虫将这些网页爬取回来,进行分析之后,提取出最符合网页类特性的词组,用以补充网页类的特征向量,这里可以使用多种方法提取出词组,本实施例系统使用的是通过分析keywords等网页中的不同信息,给予不同的权重,根据词频来划分词的重要性,即同第三步相似。
如图8所示,索引网构建器的具体工作流程:
索引网构建器要构建整个索引网,需要对网页库中所有的网页进行操作。因此在预处理时,构建一个以网页url为主关键字,以url和网页所属类即classID为键值对的哈希表htbyAddress。
第一步,索引网构建器从存储在数据库中的specific_Libraries表提取到本地的weblist数组,并且选出其中一个网页。specific_Libraries是用来存储整个网页库的数据表,其中一个表项就是网页,这个表项中记录了在构建索引网过程中需要用到的与网页有关的数据。
第二步,由于在网页库中的所有网页已经由分类器分类,从第一步提取出的网页即weblist数组中的一项中找出这个网页所属的网页类即classID (用于唯一标识一个类的属性),并且记录下来,再找出这个网页的所有外链接,存储在weblist的outLinkedWebsites属性上。将classID和outLinkedWebsites作为参数传递给子线程partWebBulid,同时传递一个参数mapID,用于决定子线程操作的索引网子网。
第三步,在partWebBuild子线程中解析outLinkedWebsites字符串,找出其中的每个url,利用这个url在哈希表htbyAddress中找出对应的网页所属的类classID2。此时,根据mapID确定操作哪个索引子网(map0~map3之间一个索引网子网)。然后,将传递到partWebBuild线程中的classID和链出网页所属的类classID2之间边的权值加1。partWebBuild继续处理outLinkedWebsites中其他的url。如果outLinkedWebsites中的所有url已经处理完,则结束这个线程。
第四步,等待所有partWebBuild子线程全部结束,统计所有索引网子网上边的权值,并将所有索引网子网的边权值累加到索引网TotalMap上。
第五步,将索引网TotalMap上每一个有向边按照属性startID,endID,weight,存入数据库的IndexNet表中,其中startID 表示有向边的起始网页类classID,endID表示有向边的终止网页类classID,weight表示这条有向边的权重,物理意义上表示两个网页类关联的紧密度。
所述用户需求分析及定位器可以分为两个模块:用户需求分析模块、用户需求定位模块。所述用户需求分析模块的主要功能为:理解用户输入的信息。其主要操作为:(1)利用现有的分词算法对用户的输入进行切词;(2)根据已经建立的近义词库对关键词进行特征向量的扩展,使得在搜索结果中能够反映出与近义词相关的网页。所述用户需求定位模块的主要功能为:将用户的输入信息定位到网络信息服务系统中的基础类中,每个类中都包含有和该类相关的网页。其主要操作为:根据形成的特征向量与网络信息服务系统中定义的类的特征向量进行比对,取和该特征向量最相似的特征向量所属的类为该特征向量定位到的类。
用户行为需求分析器的主要功能如图9所示,结构上它主要有三个部分组成,分别为:分词处理器,特征向量扩展器和需求定位器,其中:
(1)分词处理器。
对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。而分词的准确与否,常常直接影响到对搜索结果的相关度排序,对搜索引擎结果相关性和准确性有相当大的关系。本实施例信息服务服务系统中的分词处理器使用搜狗输入法的词库及现在比较主流的分词算法----最短路径匹配算法,来对用户的输入进行切词,从而更好的理解用户需求。
(2)特征向量扩展器。
如下图10所示,为特征向量扩展器的流程图,总体可以分为两个步骤:
步骤一:将分词处理器中产生的切词分量根据近义词库找出它们n个近义词集。其中近义词库建立方法为通过分析互联网上各个词典中对于近义词的描述,对每个词的近义词进行加权。
步骤二:步骤一中选取的近义词集中选取m个词作为本次用户输入的特征向量。选取的时候必须考虑用户输入的完整性。即当m>=n时,根据切词的结果产生的每个近义词集中至少有一个出现在特征向量中,其他词的选择则根据该词的权值占所有扩展成的近义词的比例来从高到低进行选择;当m<n时,则选择所有扩展成的近义词集中权值最高的词组成集合中的前m个作为用户输入的特征向量。
(3)需求定位器。
如下图11所示,为需求定位流程图,总体可以分为两个步骤。
步骤一:用所有基础类的特征向量和用户的输入向量进行匹配。具体的做法为,让用户需求特征向量中的关键词与每个类的特征向量的关键词进行匹配,如果有相同的关键词,则加权为1,如果互相包含则加权为0.5。匹配完成后,每个基础类和用户的输入向量均有一个匹配值。
步骤二:根据用户的输入和每个基础类的匹配权值,选择匹配到的类的集合。如果要定位到一个类中,则选择其中权值最高的类作为定位的结果输出;如果要选择定位的n个类中,则选择匹配中前n高权值的类作为结果输出。
实施例2执行整个服务方案提取的过程
如图12所示:首先最终服务方案的获取与呈现是需要建立在用户需求的准确定位和定位到的网页类所形成的索引网的基础上的。具体过程可以描述为:在已经建立好网页类与类之间的索引网的基础上,用户输入想要搜索的内容,本发明系统对用户的需求进行精确分析,然后与数据库中网页类的特征向量进行匹配,定位到一个、两个或者多个网页类,本发明系统通过相应的算法抽取出一套或者多套服务方案,也有可能是一个索引子网,此时用户可以根据实际需要来最终选择想要的结果,并呈现在页面中。同时本发明系统平台还会按一定顺序将网页链接和标题呈现给用户供其进行参考。
根据特征向量匹配到的网页类的个数不同可以分为三种情况,下面对这三种情况进行具体介绍:
情况1.当用户的需求定位到一个网页类时,此时本发明会计算出这个网页类与其他各个网页类之间的相关关系值,延伸出关系度最紧密的网页类,然后再计算这个网页类与其他剩余的各个网页类之间的相关关系值,延伸出关系度最紧密的那个网页类,以此类推,最终得到一条服务流程,如图13所示。
情况2.当用户的需求定位到了两个网页类时(比如说网页类1和网页类5),此时本发明就要通过相应的算法来得到从一个网页类连向另一个网页类之间的线(也就是从网页类1到网页类5的一条线),此时得到的结果可能会有好多条,用户就需要根据自己的实际情况来选择其中最符合其需求的那一条,如图14所示。
情况3.当用户的需求定位到了多个网页类时,此时本发明需要在计算网页类与网页类之间的相关关系值的过程中引入一个阈值,高于这个阈值的网页类将会从已定位到的网页类中被扩展,以此类推,最终将定位到的网页类互相连接起来,从而最终抽取出了一张索引子网,也就是本发明提供给用户的服务方案,如图15所示。

Claims (2)

1.一种网络信息服务平台,该网络信息服务平台整体架构分成前台和后台两大部分,其特征在于,所述后台架构底层是Hadoop的分布式文件系统,上面搭载HBase数据库,通过Master节点控制网页爬虫、全文索引器、分类器和索引网构建器;所述前台架构底层也为Hadoop分布式文件系统,上面搭载HBase数据库,通过Master节点控制用户需求分析定位器、推荐模块和最终呈现模块;
所述后台的任务是通过网络爬虫将互联网上的网页爬取至本地,送入全文索引器中进行倒排索引,生成索引文件存入数据库,然后分类器在逻辑上将网页分到网页类中,之后再由索引网构建器从网页类中获取网页,以这些网页为基础构建整个索引网络;所述的前台的任务就是当用户提出他的需求之后,将其定位到索引网的网页类中,抽取出索引子网并返回匹配到的网页链接;用户可以点击索引子网的网页类节点来选择自己满意的服务流程;
所述网络信息服务平台,它包括信息收集子系统,该信息收集子系统又包括爬虫和网页特征向量构建器,所述爬虫会将互联网上的网页爬取回来存储在数据库中;所述网页特征向量构建器是通过网页类的标准网页以及网页类名构建出一个能准确表示网页类特性的工具;
它还包括全文索引器,当信息收集子系统将网页信息收集回来并进行特征向量的构建后,送入全文索引器进行倒排索引;
它还包括分类器,从数据库中提取出网页信息,并对网页进行分类,并将分类信息返回给数据库;以及信息收集子系统将网页信息收集之后会送入全文索引器进行一个倒排索引,生成的索引文件送入分类器中对每个网页进行分类;
它还包括索引网构建器,需要对数据库中所有的网页进行操作,其任务是能够将海量的网页利用分类和网页间的链接关系组织成索引网,信息服务服务系统可以通过使用索引网即可提取出一个个服务流程;
它还包括数据库,与系统外部进行交互,实时获得信息更新,由分类器和爬虫负责把网页数据写入数据库中;
还包括用户需求分析定位器,理解用户输入的信息并将用户的输入信息定位到数据库的基础类中,每个类中都包含有和该类相关的网页;
它还包括最终呈现模块,最终各个索引子网匹配到的网页链接和用户点击索引子网形成的服务流程由该呈现模块输出给用户;
所述索引网构建器的具体工作流程:
在预处理时,构建一个以网页url为主关键字,以url和网页所属类classID为键值对的哈希表htbyAddress;
第一步,索引网构建器从存储在数据库中的specific_Libraries表提取到本地的weblist数组,并且选出其中一个网页;specific_Libraries是用来存储整个网页库的数据表,其中一个表项就是网页,这个表项中记录了在构建索引网过程中需要用到的与网页有关的数据;
第二步,由于在网页库中的所有网页已经由分类器分类,从第一步提取出的网页weblist数组中的一项中找出这个网页所属的网页类classID,并且记录下来,再找出这个网页的所有外链接,存储在weblist的outLinkedWebsites属性上;将classID和outLinkedWebsites作为参数传递给子线程partWebBulid,同时传递一个参数mapID,用于决定子线程操作的索引网子网;
第三步,在partWebBuild子线程中解析outLinkedWebsites字符串,找出其中的每个url,利用这个url在哈希表htbyAddress中找出对应的网页所属的类classID2;此时,根据mapID确定操作索引子网;然后,将传递到partWebBuild线程中的classID和链出网页所属的类classID2之间边的权值加1;partWebBuild继续处理outLinkedWebsites中其他的url;如果outLinkedWebsites中的所有url已经处理完,则结束这个线程;
第四步,等待所有partWebBuild子线程全部结束,统计所有索引网子网上边的权值,并将所有索引网子网的边权值累加到索引网TotalMap上;
第五步,将索引网TotalMap上每一个有向边按照属性startID,endID,weight,存入数据库的IndexNet表中,其中startID表示有向边的起始网页类classID,endID表示有向边的终止网页类classID,weight表示这条有向边的权重,物理意义上表示两个网页类关联的紧密度。
2.基于如权利要求1所述网络信息服务平台的搜索服务方法,其特征在于,所述网络信息服务平台,一方面,首先信息收集子系统中,使用爬虫对互联网的信息进行收集,再利用分类器,对爬取的信息进行分类整理,然后根据索引网构建器对分好类的网页进行构建索引网,方便对于用户服务流程的推荐,然后将构建的结果存入数据库;
另一方面,当用户的检索要求进来时,则根据用户需求分析定位器来完成对于用户需求的分析及定位,最终返回给用户界面满足用户需求的信息;
其流程包括如下步骤:
1)已经建立好了网页类的索引网,
2)用户输入关键词,
3)将关键词来匹配网页类的特征向量,
4)将用户需求定位到网页类,
5)根据不同的情况抽取出服务流程,并且用户可以自主选择。
CN201210445457.4A 2012-11-09 2012-11-09 网络信息服务平台及其基于该平台的搜索服务方法 Active CN102968465B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210445457.4A CN102968465B (zh) 2012-11-09 2012-11-09 网络信息服务平台及其基于该平台的搜索服务方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210445457.4A CN102968465B (zh) 2012-11-09 2012-11-09 网络信息服务平台及其基于该平台的搜索服务方法

Publications (2)

Publication Number Publication Date
CN102968465A CN102968465A (zh) 2013-03-13
CN102968465B true CN102968465B (zh) 2015-07-29

Family

ID=47798603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210445457.4A Active CN102968465B (zh) 2012-11-09 2012-11-09 网络信息服务平台及其基于该平台的搜索服务方法

Country Status (1)

Country Link
CN (1) CN102968465B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182393A (zh) * 2013-05-21 2014-12-03 中兴通讯股份有限公司 基于hash表的关键字映射处理方法和装置
CN103617174A (zh) * 2013-11-04 2014-03-05 同济大学 一种基于云计算的分布式搜索方法
CN103744956B (zh) * 2014-01-06 2017-01-04 同济大学 一种关键词的多样化拓展方法
CN103870329B (zh) * 2014-03-03 2017-01-18 同济大学 基于加权轮叫算法的分布式爬虫任务调度方法
CN103902697B (zh) 2014-03-28 2018-07-13 百度在线网络技术(北京)有限公司 组合搜索方法、客户端和服务器
CN103955449B (zh) * 2014-04-21 2018-03-06 安一恒通(北京)科技有限公司 定位目标样本的方法和装置
CN104331771B (zh) * 2014-10-31 2018-07-06 单利峰 一站式小微企业服务外包管理系统
CN105912662A (zh) * 2016-04-11 2016-08-31 天津大学 基于Coreseek的垂直搜索引擎研究与优化的方法
CN105930469A (zh) * 2016-04-23 2016-09-07 北京工业大学 基于Hadoop的个性化旅游推荐系统及方法
CN105930536B (zh) * 2016-06-21 2019-12-27 北京小米移动软件有限公司 索引建立方法、页面跳转方法及装置
CN108446323A (zh) * 2018-02-11 2018-08-24 山东省农业信息中心 一种基于全文搜索引擎的数据检索方法及装置
CN111104583B (zh) * 2018-10-10 2024-01-05 河南星易网络科技有限公司 一种直播间推荐方法、存储介质、电子设备及系统
CN110516137B (zh) * 2019-08-30 2022-08-26 四川长虹电器股份有限公司 基于Gecco框架爬取网页数据并与数据库交互的方法
CN111931040B (zh) * 2020-06-30 2024-01-12 深圳市世强元件网络有限公司 一种网络平台内部服务实体服务入口的推荐方法
CN114238772A (zh) * 2021-12-24 2022-03-25 韩效遥 内容自适应感知的网络地图智能推荐系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101127043A (zh) * 2007-08-03 2008-02-20 哈尔滨工程大学 一种轻量级个性化搜索引擎及其搜索方法
CN101334773A (zh) * 2007-06-28 2008-12-31 联想(北京)有限公司 一种过滤搜索引擎查询结果的方法
CN101853272A (zh) * 2010-04-30 2010-10-06 华北电力大学(保定) 基于相关反馈和聚类的搜索引擎技术

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7386545B2 (en) * 2005-03-31 2008-06-10 International Business Machines Corporation System and method for disambiguating entities in a web page search
US8392446B2 (en) * 2007-05-31 2013-03-05 Yahoo! Inc. System and method for providing vector terms related to a search query
US8010482B2 (en) * 2008-03-03 2011-08-30 Microsoft Corporation Locally computable spam detection features and robust pagerank

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101334773A (zh) * 2007-06-28 2008-12-31 联想(北京)有限公司 一种过滤搜索引擎查询结果的方法
CN101127043A (zh) * 2007-08-03 2008-02-20 哈尔滨工程大学 一种轻量级个性化搜索引擎及其搜索方法
CN101853272A (zh) * 2010-04-30 2010-10-06 华北电力大学(保定) 基于相关反馈和聚类的搜索引擎技术

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
中文聚类搜索引擎中主要技术的研究;陈平;《中国优秀硕士学位论文全文数据库 信息科技辑》;20100715;全文 *
基于搜索引擎和语义的Web服务发现研究;黄华;《中国优秀硕士学位论文全文数据库 信息科技辑》;20110915;全文 *

Also Published As

Publication number Publication date
CN102968465A (zh) 2013-03-13

Similar Documents

Publication Publication Date Title
CN102968465B (zh) 网络信息服务平台及其基于该平台的搜索服务方法
JP5283208B2 (ja) 情報検索システム及び方法及びプログラム並びに情報検索サービス提供方法
CN102087669B (zh) 基于语义关联的智能搜索引擎系统
CN102043833B (zh) 一种基于查询词进行搜索的方法和搜索装置
CN101908071B (zh) 一种提高搜索引擎搜索效率的方法及其系统
CN103838833A (zh) 基于相关词语语义分析的全文检索系统
CN108647276B (zh) 一种搜索方法
CN101986306B (zh) 一种用于基于查询序列获取黄页信息的方法与设备
CN101847161A (zh) 搜索网页的方法和建立数据库的方法
CN101739407A (zh) 自动构建用于相关信息浏览的信息组织结构的方法和系统
US20070271228A1 (en) Documentary search procedure in a distributed system
CN103049528A (zh) 基于用户兴趣向量的个性化网页搜索排序方法
CN104679783A (zh) 一种网络搜索方法和装置
CN102722499A (zh) 搜索引擎及其实现方法
CN111475725A (zh) 用于搜索内容的方法、装置、设备和计算机可读存储介质
CN115563313A (zh) 基于知识图谱的文献书籍语义检索系统
KR101122737B1 (ko) 지식노드 연결구조를 생성하기 위한 검색 데이터베이스 구축 장치 및 방법
Hoque et al. Combining conceptual query expansion and visual search results exploration for web image retrieval
CN116523041A (zh) 装备领域知识图谱构建方法、检索方法、系统及电子设备
Kolli et al. A Novel Nlp and Machine Learning Based Text Extraction Approach from Online News Feed
KR101592670B1 (ko) 인덱스를 이용하는 데이터 검색 장치 및 이를 이용하는 방법
CN102999569B (zh) 用户需求分析定位器和分析及定位方法
Pakojwar et al. Web data extraction and alignment using tag and value similarity
KR102041915B1 (ko) 인공지능을 활용한 데이터베이스 모듈 및 이를 이용하는 경제데이터 제공 시스템 및 방법
Khurana et al. Survey of techniques for deep web source selection and surfacing the hidden web content

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant