CN105912584A

CN105912584A - 一种基于网页信息数据的数据索引系统

Info

Publication number: CN105912584A
Application number: CN201610202252.1A
Authority: CN
Inventors: 第伟; 蔚承建; 张磊
Original assignee: Nanjing Aolingke Internet Of Things Technology Co Ltd
Current assignee: Jiangsu sairong Technology Co.,Ltd.
Priority date: 2016-04-01
Filing date: 2016-04-01
Publication date: 2016-08-31
Anticipated expiration: 2036-04-01
Also published as: CN105912584B

Abstract

本发明公开了一种基于网页信息数据的数据索引系统，包括索引器模块、网络应用程序模块和solr搜索应用服务器模块，所述索引器模块中建立索引记录数据库；所述网络应用程序模块中包括查询模块和查询反馈模块；所述solr搜索应用服务器模块中包括XML响应模块、XML更新处理器、CSV更新处理器、标准请求处理器、客户请求处理器、lucene搜索应用服务器和管理、跟新、查询功能模块；所述索引记录数据库的输出端、查询模块的输出端分别和solr搜索应用服务器模块相连接，solr搜索应用服务器模块的输出端和查询反馈模块相连接，查询反馈模块向外界输出最优数据索引结果。本发明系统采用模块化设计，能显著提高数据源的质量和检索的准确性。

Description

一种基于网页信息数据的数据索引系统

技术领域

本发明公开了一种基于网页信息数据的数据索引系统，涉及网络数据搜索技术领域。

背景技术

垂直搜索引擎,即专业或专用搜索引擎,就是为查询某一学科或主题的信息而产生的查询工具,专门收录某一方面、某一行业或某一主题的信息,有的文献也称之为“主题搜索引擎”或“专业搜索引擎”。垂直搜索引擎市场巨大,近几年垂直搜索引擎在商业领域获得了巨大利润,垂直搜索引擎面向的对象五花八门,不断有面向新兴行业的垂直搜索引擎网站出现,比如工作搜索、旅游搜索、购物搜索,各行业都可以把分类细化,利用垂直搜索引擎技术满足自己的需求。但目前垂直搜索所用的技术模式与传统搜索引擎模式进本相同,只是把数据源进行了细化,效果更佳个性化地满足了用户需求。不同种类的垂直搜索引擎都是由大型通用搜索引擎慢慢发展演变而来的,所以新一代搜索引擎没有完全抛弃前面搜索引擎的技术和资源,是一种继承和发展的关系。这个时期应该是垂直搜索引擎和通用搜索引擎长时间共存的。

国内外目前对垂直搜索的研究主要集中在：

(1)目录精细化方向。由于垂直搜索引擎相对于综合搜索引擎的最大优势，是对信息进行深度的、精细化的处理。与早期的网址分类搜索引擎相似，但垂直搜索引擎只选定了某一特定行业或某一主题进行目录的细化分类，结合机器抓取行业相关站点的信息提供专业化的搜索服务。这种专业化的分类目录，很容易让用户迅速知道自己要找的是什么，并且按目录点击就能找到。未来的垂直搜索引擎将会更加精细的划分不同的行业，用户想要什么就可以得到什么。

(2)深度挖掘分析元数据。通过对元数据信息进入深度加工，该类垂直搜索引擎为用户提供综合搜索引擎无法做到的专业性、功能性、关联性，有的加入了用户信息管理以及信息发布互动功能，能很好地满足了用户对专业性、准确性、功能性、个性化的需求。

(3)向交易平台发展。垂直搜索引擎由于自身对行业的专注,使得它可以提供行业信息深度和广度的整合提供更加细致周到的服务。对消费领域可以推出针对某一行业的搜索交易平台。搜索交易平台提供行业内商家和顾客直接沟通、咨询不再需要转到第三方平台再进行交易。

国内垂直搜索引擎与相关行业相结合，在房地产、IT信息、招聘、购物、生活服务及证券投资方面发展迅猛。代表性的垂直搜索引擎网站有：

(1)摇篮网是国内专业权威的中文育儿网站。为年轻的父母和准备做父母的夫妇提供从母亲怀孕到孩子六岁期间各个方面的知识、服务和产品资讯。摇篮网是全球最大的中文母婴门户网站之一。网站资料权威、内容丰富,让用户准确、高效的获取育儿方面的服务信息。

(2)淘宝网是亚洲最大的网络零售商圈。淘宝会员在交易过程中感觉到轻松活拨的家庭式文化氛围。淘宝旺旺具备了查看交易历史、了解对方信用情况、个人信息、头像、多方聊天等一般聊天工具所具备的功能。淘宝网让用户足不出户,选定合适的商品,提供了一个快速且准确的信息获取平台。

(3)酷讯是中国领先的旅游搜索引擎,为广大出行用户提供便利的“机票"、"酒店、"度假〃、"火车票"等信息搜索等信息,成为国内领先的旅游搜索引擎。酷讯的核心是利用技术优势,帮助用户在互联网海量信息中发掘有价值的、可节省成本的信息,及时满足个性化搜索需求。

但是尽管国内的垂直搜索引擎发展较快，但与国外的相比，无论是在数据挖掘、开放接口、信息共享等技术层面还是在行业经验上都还有很多差距，这就大大的限制了垂直搜索引擎的发展，使得专业化搜索服务还无法在社会的各个领域得到广泛发展。国外的垂直搜索引擎正处于一个蓬勃发展的时期,各种专业搜索引擎层出不穷,许多专门领域都有自己的垂直搜索引擎，以下几个是最有代表性的：

1)Elsevier的Scirus系统

Elsevier开发的Scims系统是专门面向科学家和科研人员的学术信息检索系统。目前Scims系统的相关网页资源达到了数亿,其搜索领域涵盖广泛,主要以自然科学为主,其他的领域也颇有涉及, 如经济学、商学、管理学等社会学科。Scirus系统网页信息来源包括期刊论文、预印本、报告、科学数据、发明专利及有关网页,大多是网上开放获取资源,也含部分商业收费资源。系统对搜索到的网页资源进行整合处理,提取其中对科研人员有利信息,通过文章、内容等条件能够检索出信息来符合科研人员使用的要求。

2)Berkeley的Focused Project

Focused Project通过分类器和净化器来引导网络_蛛,帮助网络购]蛛定位下载和主题分类相关度高的网页信息。分类器负责计算网页相关度,净化器负责排除相关度不高的链接。

3)NEC研究院的CiteSeer

NEC研究院的CiteSeer(又名ResearcMndex)是在自动引文索引(AutonomousCitation Indexing,ACI)机制的基础上建设的一个学术论文数字图书馆,CiteSeer的数据资源已经有50多万篇,而且都是计算机方向的论文,其目标是从多个方面促进学术文献的传播和反馈,CiteSeer系统具有检索相关文献及其属性、查看文献的引用关系等功能。

4)美国国家科学数字图书馆的Collection Building Program

美国国家科学数字图书馆的Collection Building Program项目是一个在线数字图书馆,致力于在科学、数学、工程和技术某些领域获得学科资源的自动收集。

搜索引擎市场的稳步发展与网络信息爆炸式增长，网民人数不断增加紧密相连。互联网信息内容的急剧增加使用户或得信息的方式更加复杂多样化，对搜索引擎的依赖也不断增加。使用垂直搜索引擎获得信息已经成为网民的基本网络行为之一，这将进一步推动我国垂直搜索引擎行业快速发展。

现有技术中常用的搜索引擎在数据源的质量选取上还有较大的缺陷，检索的准确性还有待提高。

发明内容

本发明所要解决的技术问题是：针对现有技术的缺陷，提供一种基于网页信息数据的数据索引系统，。

本发明为解决上述技术问题采用以下技术方案：

一种基于网页信息数据的数据索引系统，包括索引器模块、网络应用程序模块和solr搜索应用服务器模块，其中：

所述索引器模块中建立索引记录数据库；

所述网络应用程序模块中包括查询模块和查询反馈模块；

所述solr搜索应用服务器模块中包括XML响应模块、XML更新处理器、CSV更新处理器、标准请求处理器、客户请求处理器、lucene搜索应用服务器和管理、跟新、查询功能模块；

所述索引记录数据库的输出端、查询模块的输出端分别和solr搜索应用服务器模块相连接，solr搜索应用服务器模块的输出端和查询反馈模块相连接，查询反馈模块向外界输出最优数据索引结果；

索引记录数据库使用网络蜘蛛自动从互联网上抓取网页数据，solr搜索应用服务器模块对网络蜘蛛抓取到的网页数据进行语义分析归类，分析网页的时效性和地域性，将时间和地域信息加入到索引记录数据库或跟索引记录数据库建立联系，lucene搜索应用服务器采用最佳优先搜索策略进行网页抓取，按照网页分析算法，预测候选URL与目标网页的相似度，或与主题的相关性，并选取评价最好的一个或几个URL进行抓取，处理得出最优数据索引结果。

作为本发明的进一步优选方案，所述索引记录数据库采用php空间，包括100M的MYSQL数据库+10G网页空间。

作为本发明的进一步优选方案，所述网络应用程序模块为C/S结构。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：系统采用模块化设计，分为数据采集预处理、核心搜索服务、行为分析个性化和群智优化。

数据采集预处理负责互联网资源的收集和预处理，为精准搜索建立完备的索引数据库；行为分析个性化依据用户当前的网络行为和历史行为记录建立行为分析模型，进而得出用户当前的搜索意图；核心搜索服务是利用自主优化的垂直搜索机制，搭建高效的搜索服务平台；群智优化是利用公众对搜索的参与和信息过滤，提高数据源的质量和检索的准确性。

附图说明

图1是本发明的系统模块连接示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，

其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解的是，本发明中涉及到的相关模块及其实现的功能是在改进后的硬件及其构成的装置、器件或系统上搭载现有技术中常规的计算机软件程序或有关协议就可实现，并非是对现有技术中的计算机软件程序或有关协议进行改进。例如，改进后的计算机硬件系统依然可以通过装载现有的软件操作系统来实现该硬件系统的特定功能。因此，可以理解的是，本发明的创新之处在于对现有技术中硬件模块的改进及其连接组合关系，而非仅仅是对硬件模块中为实现有关功能而搭载的软件或协议的改进。

本技术领域技术人员可以理解的是，本发明中提到的相关模块是用于执行本申请中所述操作、方法、流程中的步骤、措施、方案中的一项或多项的硬件设备。所述硬件设备可以为所需的目的而专门设计和制造，或者也可以采用通用计算机中的已知设备或已知的其他硬件设备。所述通用计算机有存储在其内的程序选择性地激活或重构。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

下面结合附图对本发明的技术方案做进一步的详细说明：

本发明的系统模块连接示意图如图1所示，所述基于网页信息数据的数据索引系统，包括索引器模块、网络应用程序模块和solr搜索应用服务器模块，其中：所述索引器模块中建立索引记录数据库；所述网络应用程序模块中包括查询模块和查询反馈模块；所述solr搜索应用服务器模块中包括XML响应模块、XML更新处理器、CSV更新处理器、标准请求处理器、客户请求处理器、lucene搜索应用服务器和管理、跟新、查询功能模块；

其中，所述索引记录数据库采用php空间，包括100M的MYSQL数据库+10G网页空间。所述网络应用程序模块为C/S结构。

本发明的实现过程模块分析，下面进行分块描述：

1.数据采集预处理

数据采集主要是使用“网络蜘蛛”自动从互联网上抓取网页数据。数据预处理主要是对网络蜘蛛抓取到的网页数据进行语义分析归类，分析网页的时效性和地域性，将时间和地域信息加入到索引数据库或跟索引数据库建立联系，并建立专业知识信息

库，从数据源上解决精准搜索的问题。

实现机制主要包括：

1)数据源抓取策略

为了达到精准搜索的目的，我们采用最佳优先搜索策略进行网页抓取。按照网页分析算法，预测候选URL与目标网页的相似度，或与主题的相关性，并选取评价最好的一个或几个URL进行抓取。

2)网页分析评价

系统采用基于网页内容的分析算法，包括网页数据抽取、机器学习、数据挖掘、语义理解等多种方法。根据网页数据形式的不同，基于网页内容的分析算法，我们提供以下三类分析方法：第一种针对以文本和超链接为主的无结构或结构很简单的网页；第二种针对从结构化的数据源(如RDBMS)动态生成的页面，其数据不能直接批量访问；第三种针对的数据界于第一和第二类数据之间。

3)数据类型

抓取的数据源包括各种格式：HTML、图片、doc、pdf、多媒体以及其他格式等。对于doc、pdf等文档，利用系统插件提取文本内容。HTML文档，通过过滤标识符来获取文本内容。对于多媒体、图片等文件，一般通过链接文本和相关的文件注释来获取文件的内容。

4)数据源更新周期

为了达到精准搜索的高时效性，我们采用灵活的更新策略，根据网页的更新频率来动态调整抓取数据的更新周期。更新网站内容的时候，不用把网站网页重新抓取一次，只需要判断网页的属性，把得到的属性和上次抓取的属性相比较，如果一样就不用更新。

5)数据预处理

数据预处理主要是对网络蜘蛛抓取到的网页自动归类到预先定义好的分类体系中。Web文本分类的组件主要包括：中文分词、特征提取和文本分类算法。

这些关键技术的实现对最终的分类算法都有一定程度上的影响。

2.核心搜索服务：

我们的核心搜索服务采用分布式垂直搜索结构，实现机制主要包括：

1)分布式垂直搜索

我们提供的分布式索引服务将原来的大索引会分成多个小索引(小索引并不一定规模小，称之为小索引是相对于之前的整个索引来讲的)，系统将从这些小索引返回的结果合并，然后返回给客户端。

如果单个搜索足够快，而只是为了提高整体的请求数/秒，那么可以尝试用索引复制。

2)多核垂直搜索服务

为了实现最大程度的可定制，我们提供多核搜索方式的配置方案。多核允许在一个单一的搜索服务实例中拥有独立的多个配置和索引，每个不同的应用有自己的配置和模式文件，但是有一个统一的管理。每个索引都是独立的，在一个实例里面管理它们。可以建立新的核心来增加新的索引，甚至可以用一个核心在不关闭Servlet容器的情况下来替代另一个核心。

3.行为分析个性化

为了分析用户的网络行为，预测用户的搜索意图，系统需要知道用户对正在浏览的网页的兴趣程度，并建立用户兴趣和网页的关系模型，然后以此用来做今后的推荐的依据。最常用和最明显的方法是用显式反馈，但不是那么可靠。系统采用隐式反馈，通过各种方法间接从用户得到评价信息。例如，在上网的时候收藏了一个网页或者花很长的时间浏览一个网页，我们可以认为用户对这个页面感兴趣。系统采用隐式反馈的用户行为分析的方法来进行推荐。

通过行为特征，系统运用训练数据来确定页面各关键词的出现特征，判断关键词，进而选择出用户感兴趣的词输入搜索引擎，这样返回的结果与用户信息需求最符合，达到精准搜索的目的。

4.群智优化

我们采用显式反馈和隐式反馈相结合的方式为用户建立行为模式，并采用协同过滤(Collaborative Filtering)的方法从其他有关的浏览模型得到更多的预测结果，从而可以提高预测的精度和广度。协同过滤(Collaborative Filtering)技术，是推荐系统中应用最为广泛的技术之一。顾名思义，“Collaborative”本身就已经说明了协同过滤算法的主要意思，它基于一组兴趣相同的用户进行推荐。协同过滤基于这样的假设：为用户找到真正感兴趣的内容的好方法是，首先找到与他兴趣相似的用户，然后将这些用户感兴趣的内容推荐给此用户。结合互联网精准搜索的需求，我们系统采用基于项目的协同过滤做为群智优化的关键技术，资源占用少、扩展性强、准确度高。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质，在本发明的精神和原则之内，对以上实施例所作的任何简单的修改、等同替换与改进等，均仍属于本发明技术方案的保护范围之内。

Claims

1.一种基于网页信息数据的数据索引系统，其特征在于，包括索引器模块、网络应用程序模块和solr搜索应用服务器模块，其中：

所述索引器模块中建立索引记录数据库；

所述网络应用程序模块中包括查询模块和查询反馈模块；

2.如权利要求1所述的一种基于网页信息数据的数据索引系统，其特征在于：所述索引记录数据库采用php空间，包括100M的MYSQL数据库+10G网页空间。

3.如权利要求1或2所述的一种基于网页信息数据的数据索引系统，其特征在于：所述网络应用程序模块为C/S结构。