CN105069112A

CN105069112A - 一种行业垂直搜索引擎系统

Info

Publication number: CN105069112A
Application number: CN201510488122.4A
Authority: CN
Inventors: 赵兵旗
Original assignee: Inspur Software Group Co Ltd
Current assignee: Inspur Software Group Co Ltd
Priority date: 2015-08-11
Filing date: 2015-08-11
Publication date: 2015-11-18

Abstract

本发明公开了一种行业垂直搜索引擎系统，属于大数据领域。所述行业垂直搜索引擎系统包括数据采集模块、数据处理模块、数据展示模块，所述数据采集模块用于在行业信息相关网站中爬取相关网页，并将网页源文件保存到hbase数据库中；所述数据处理模块对爬取到的相关网页进行数据处理；所述数据展示模块用于接收查询内容并展示搜索结果。与现有技术相比，本发明的行业垂直搜索引擎系统能够提供比较精准或者细化的搜索服务，且搜索效率高，具有很好的推广应用价值。

Description

一种行业垂直搜索引擎系统

技术领域

本发明涉及大数据领域，具体地说是一种涉及数据采集、数据处理、数据挖掘、数据展示的行业垂直搜索引擎系统。

背景技术

随着互联网时代的快速推进，人们接触的信息资源呈爆炸性发展的趋势，同时，人们获得信息的方式和途径也呈现多元化发展的态势。如何从这些错综复杂的信息中全面、准确无误地提取自己所需信息，帮助用户收集自己所感兴趣的资料成为当前信息科技领域的一大研究热点。

以有技术中应用较为广泛的搜索引擎包括Sphider、RiSearchPHP、XQEngine、JXTASearch等。其中，Sphider是一个轻量级，采用PHP开发的webspider和搜索引擎，使用mysql来存储数据。可以利用它来为自己的网站添加搜索功能。但是Sphider非常小,无法应用到大型项目中。

RiSearchPHP是一个高效，功能强大的搜索引擎，特别适用于中小型网站。RiSearchPHP非常快，它能够在不到1秒钟内搜索5000-10000个页面。但是RiSearch是一个索引搜索引擎,这就意味着它先将你的网站做索引并建立一个数据库来存储你网站所有页面的关键词以便快速搜索

XQEngine用于XML文档的全文本搜索引擎。利用XQuery做为它的前端查询语言。它能够让你查询XML文档集合通过使用关键字的逻辑组合。有点类似于Google与其它搜索引擎搜索HTML文档一样。XQEngine只是一个用Java开发的很紧凑的可嵌入的组件。

JXTASearch是一个分布式的搜索系统。但是设计用在点对点的网络与网站上。

solr是由java开发的，基于lucene的分布式搜索引擎，提供了类似于webserver的编程接口，是一个比较成熟的搜索引擎，目前很多公司都在使用。文档通过Http利用XML加到一个搜索集合中。查询该集合也是通过http收到一个XML/JSON响应来实现，高效、灵活的缓存功能降低用户的等待时间，高亮显示搜索结果让用户快速定位所需内容，通过索引复制提高可用性，对用户决策起到一定的辅助作用等。

发明内容

本发明的技术任务是针对上述现有技术的不足，提供一种行业垂直搜索引擎系统。

本发明的技术任务是按以下方式实现的：一种行业垂直搜索引擎系统，包括数据采集模块、数据处理模块、数据展示模块，

所述数据采集模块用于在行业信息相关网站中爬取相关网页，并将网页源文件保存到hbase数据库中；

所述数据处理模块通过以下方法对爬取到的相关网页进行数据处理：

1）采用向量空间模型建模；

2）采用词频逆文档频权重进行权重计算；

3）采用信息增益计算特征项的贡献程度大小；

4）采用-最近邻结点算法对待分类文本进行归类处理；

所述数据展示模块用于接收查询内容并展示搜索结果。

作为优选，数据采集模块可以为每个数据来源网站建立适用的下载更新策略，启动定时更新任务，以保证网页信息的实时性。

作为优选，所述数据展示模块包括：

1）综合搜索模块，用于接收查询输入内容，提交给solr服务，从索引文件中进行查询，返回符合条件的所有网页，并分类显示标题，标题链接具体内容；

2）企业搜索模块，用于接收查询输入内容，提交给solr服务，从索引文件中进行查询，返回符合条件的企业；

3）用户权限管理模块，用于完成系统用户权限管理，并根据权限对上述显示内容进行按需推送。

与现有技术相比，本发明的行业垂直搜索引擎系统具有以下有益效果：

（一）通过对采集后的数据进行分析，采用信息分类方式把不同的数据存储到结构化和非结构化数据库中，提交自己的关键词，即可准确定位到用户所需信息，能取得更精准的搜索结果；

（二）使用solrcloud作为分布式搜索服务的基础，利用机器学习算法对互联网数据进行提取解析以及分析挖掘，保障搜索效率及精准性。

附图说明

附图1是本发明行业垂直搜索引擎系统的流程图。

具体实施方式

参照说明书附图以具体实施例对本发明的行业垂直搜索引擎系统作以下详细地说明。

实施例：

本实施例是针对企业的专业搜索引擎，是通用搜索引擎的细分和延伸，通过针对税务领域提供有特定价值的信息和相关服务。如附图1所示，其主要功能模块及采用技术如下：

（1）数据采集

根据税务部门要求，对提供的相关纳税人，使用网络爬虫到“百度百科”、招聘网、企业官网、新闻网站、股市信息网站等可能包含与纳税人相关信息的网站爬取相关网页，网页源文件保存到hbase数据库中。为每个数据来源网站建立适用的下载更新策略，启动定时更新任务，保证网页信息的实时性。hbase分布式数据库可以保证各种类型数据无损失保存，并可根据需求进行横向扩展。

（2）数据处理

a）模型建立：向量空间模型

采用基于线性代数的简单向量空间模型，允许局部匹配，排除布尔逻辑模型的硬性比对；

b）权重计算：词频逆文档频权重

词频逆文档频权重又被叫做TF-IDF(TermFrequency-InverseDocumentFrequency)权重。这种计算方法包含两部分：TF指的词频，即某个特征项在文本中出现了多少次，这个值计算前都会被处理，防以免受到文本长度的影响，所以这种权重计算方法把词频权重的思想引入进来；IDF指的逆文档频率，是对某个特征项普遍性的衡量，计算方法是用总的文档数量除以包含该特征项的文档的数量，再通过对数运算获得最后的值。如果所该特征项仅存在于个别的文档当中，说明该特征项的集中程度越高，它对文档类别的贡献率越高。

c）特征降维：信息增益

针对文本中出现的每个特征项来进行计算的，即观察文本中的某一个特征项，分类系统在包含它和没包含它的情况下信息量各是多少，然后两数做差，得到的值就是增益，表示特征项对分类系统的影响度，通过该值的计算，表明特征项对文本类别的贡献度的大小。

d）数据挖掘：-最近邻结点算法

KNN算法的原理是：通过计算将要分类的文本与训练文本集中的文本之间的密切程度，找出其中离将要分类文本最近的k个文本，观察这k个文本中属于哪个类别的文档最多，就将待分类文本归到那一类别中。

（3）数据展示

a）综合搜索模块

本模块接收查询输入内容，提交给solr服务，从索引文件中进行查询，返回符合条件的所有网页，并按“相关企业”、“新闻动态”、“股市行情”、“相关政策法规”等类别进行分类显示标题，标题链接具体内容。

b）企业搜索模块

本模块接收查询输入内容，提交给solr服务，从索引文件中进行查询，返回符合条件的企业，可以按照“所属行业”、“从业人数”、“区域”等进行搜索结果过滤，可以按综合排名、搜索量、开业日期、关注量等进行排序。进入企业链接，可以查看该企业概况（来自百度百科）、企业联系方式、股市信息、企业动态、采购信息、招投标信息、产品信息、行业动态、招聘信息以及企业关系网信息。

c）用户权限管理模块

完成系统用户权限管理，可根据权限对上述显示内容进行按需推送。

上述系统的具体实现方法包括以下步骤：

1.数据采集：采用网络爬虫实现数据的采集处理

1.1首先选取一部分精心挑选的种子URL；

1.2将这些URL放入待抓取URL队列；

1.3从待抓取URL队列中取出待抓取在URL，解析DNS，并且得到主机的ip，并将URL对应的网页下载下来，存储进已下载网页库中。此外，将这些URL放进已抓取URL队列。

1.4分析已抓取URL队列中的URL，分析其中的其他URL，并且将URL放入待抓取URL队列，从而进入下一个循环。

2.文本预处理：对采集到的文本数据分词，去停用词，计算词语权重

假定分词词典中的最长词有i个汉字字符，则用被处理文档的当前字串中的前i个字作为匹配字段，查找字典。若字典中存在这样的一个i字词，则匹配成功，匹配字段被作为一个词切分出来。如果词典中找不到这样的一个i字词，则匹配失败，将匹配字段中的最后一个字去掉，对剩下的字串重新进行匹配处理……如此进行下去，直到匹配成功，即切分出一个词或剩余字串的长度为零为止。这样就完成了一轮匹配，然后取下一个i字字串进行匹配处理，直到文档被扫描完为止。

3.特征提取：采用LLE算法降低特征向量维数

3.1寻找每个样本点的k个近邻点；

3.2由每个样本点的近邻点计算出该样本点的局部重建权值矩阵；

3.3由该样本点的局部重建权值矩阵和其近邻点计算出该样本点的输出值。

4.文本分类：利用k-NN算法进行文本分类

如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的别。KNN方法虽然从原理上也依赖于极限定理，但在类别决策时，只与极少量的相邻样本有关。

5.利用solr进行数据的搜索服务

Solr对外提供标准的http接口来实现对数据的索引的增加、删除、修改、查询。在Solr中，用户通过向部署在servlet容器中的SolrWeb应用程序发送HTTP请求来启动索引和搜索。Solr接受请求，确定要使用的适当SolrRequestHandler，然后处理请求。通过HTTP以同样的方式返回响应。默认配置返回Solr的标准XML响应，也可以配置Solr的备用响应格式。

Claims

1.一种行业垂直搜索引擎系统，其特征在于：包括数据采集模块、数据处理模块、数据展示模块，

1）采用向量空间模型建模；

2）采用词频逆文档频权重进行权重计算；

3）采用信息增益计算特征项的贡献程度大小；

4）采用-最近邻结点算法对待分类文本进行归类处理；

所述数据展示模块用于接收查询内容并展示搜索结果。

2.根据权利要求1所述的行业垂直搜索引擎系统，其特征在于，数据采集模块为每个数据来源网站建立适用的下载更新策略，启动定时更新任务。

3.根据权利要求1所述的行业垂直搜索引擎系统，其特征在于，所述数据展示模块包括：