CN105069112A - 一种行业垂直搜索引擎系统 - Google Patents

一种行业垂直搜索引擎系统 Download PDF

Info

Publication number
CN105069112A
CN105069112A CN201510488122.4A CN201510488122A CN105069112A CN 105069112 A CN105069112 A CN 105069112A CN 201510488122 A CN201510488122 A CN 201510488122A CN 105069112 A CN105069112 A CN 105069112A
Authority
CN
China
Prior art keywords
module
search engine
data
engine system
industry vertical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510488122.4A
Other languages
English (en)
Inventor
赵兵旗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Group Co Ltd
Original Assignee
Inspur Software Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Group Co Ltd filed Critical Inspur Software Group Co Ltd
Priority to CN201510488122.4A priority Critical patent/CN105069112A/zh
Publication of CN105069112A publication Critical patent/CN105069112A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明公开了一种行业垂直搜索引擎系统,属于大数据领域。所述行业垂直搜索引擎系统包括数据采集模块、数据处理模块、数据展示模块,所述数据采集模块用于在行业信息相关网站中爬取相关网页,并将网页源文件保存到hbase数据库中;所述数据处理模块对爬取到的相关网页进行数据处理;所述数据展示模块用于接收查询内容并展示搜索结果。与现有技术相比,本发明的行业垂直搜索引擎系统能够提供比较精准或者细化的搜索服务,且搜索效率高,具有很好的推广应用价值。

Description

一种行业垂直搜索引擎系统
技术领域
本发明涉及大数据领域,具体地说是一种涉及数据采集、数据处理、数据挖掘、数据展示的行业垂直搜索引擎系统。
背景技术
随着互联网时代的快速推进,人们接触的信息资源呈爆炸性发展的趋势,同时,人们获得信息的方式和途径也呈现多元化发展的态势。如何从这些错综复杂的信息中全面、准确无误地提取自己所需信息,帮助用户收集自己所感兴趣的资料成为当前信息科技领域的一大研究热点。
以有技术中应用较为广泛的搜索引擎包括Sphider、RiSearchPHP、XQEngine、JXTASearch等。其中,Sphider是一个轻量级,采用PHP开发的webspider和搜索引擎,使用mysql来存储数据。可以利用它来为自己的网站添加搜索功能。但是Sphider非常小,无法应用到大型项目中。
RiSearchPHP是一个高效,功能强大的搜索引擎,特别适用于中小型网站。RiSearchPHP非常快,它能够在不到1秒钟内搜索5000-10000个页面。但是RiSearch是一个索引搜索引擎,这就意味着它先将你的网站做索引并建立一个数据库来存储你网站所有页面的关键词以便快速搜索
XQEngine用于XML文档的全文本搜索引擎。利用XQuery做为它的前端查询语言。它能够让你查询XML文档集合通过使用关键字的逻辑组合。有点类似于Google与其它搜索引擎搜索HTML文档一样。XQEngine只是一个用Java开发的很紧凑的可嵌入的组件。
JXTASearch是一个分布式的搜索系统。但是设计用在点对点的网络与网站上。
solr是由java开发的,基于lucene的分布式搜索引擎,提供了类似于webserver的编程接口,是一个比较成熟的搜索引擎,目前很多公司都在使用。文档通过Http利用XML加到一个搜索集合中。查询该集合也是通过http收到一个XML/JSON响应来实现,高效、灵活的缓存功能降低用户的等待时间,高亮显示搜索结果让用户快速定位所需内容,通过索引复制提高可用性,对用户决策起到一定的辅助作用等。
发明内容
本发明的技术任务是针对上述现有技术的不足,提供一种行业垂直搜索引擎系统。
本发明的技术任务是按以下方式实现的:一种行业垂直搜索引擎系统,包括数据采集模块、数据处理模块、数据展示模块,
所述数据采集模块用于在行业信息相关网站中爬取相关网页,并将网页源文件保存到hbase数据库中;
所述数据处理模块通过以下方法对爬取到的相关网页进行数据处理:
1)采用向量空间模型建模;
2)采用词频逆文档频权重进行权重计算;
3)采用信息增益计算特征项的贡献程度大小;
4)采用-最近邻结点算法对待分类文本进行归类处理;
所述数据展示模块用于接收查询内容并展示搜索结果。
作为优选,数据采集模块可以为每个数据来源网站建立适用的下载更新策略,启动定时更新任务,以保证网页信息的实时性。
作为优选,所述数据展示模块包括:
1)综合搜索模块,用于接收查询输入内容,提交给solr服务,从索引文件中进行查询,返回符合条件的所有网页,并分类显示标题,标题链接具体内容;
2)企业搜索模块,用于接收查询输入内容,提交给solr服务,从索引文件中进行查询,返回符合条件的企业;
3)用户权限管理模块,用于完成系统用户权限管理,并根据权限对上述显示内容进行按需推送。
与现有技术相比,本发明的行业垂直搜索引擎系统具有以下有益效果:
(一)通过对采集后的数据进行分析,采用信息分类方式把不同的数据存储到结构化和非结构化数据库中,提交自己的关键词,即可准确定位到用户所需信息,能取得更精准的搜索结果;
(二)使用solrcloud作为分布式搜索服务的基础,利用机器学习算法对互联网数据进行提取解析以及分析挖掘,保障搜索效率及精准性。
附图说明
附图1是本发明行业垂直搜索引擎系统的流程图。
具体实施方式
参照说明书附图以具体实施例对本发明的行业垂直搜索引擎系统作以下详细地说明。
实施例:
本实施例是针对企业的专业搜索引擎,是通用搜索引擎的细分和延伸,通过针对税务领域提供有特定价值的信息和相关服务。如附图1所示,其主要功能模块及采用技术如下:
(1)数据采集
根据税务部门要求,对提供的相关纳税人,使用网络爬虫到“百度百科”、招聘网、企业官网、新闻网站、股市信息网站等可能包含与纳税人相关信息的网站爬取相关网页,网页源文件保存到hbase数据库中。为每个数据来源网站建立适用的下载更新策略,启动定时更新任务,保证网页信息的实时性。hbase分布式数据库可以保证各种类型数据无损失保存,并可根据需求进行横向扩展。
(2)数据处理
a)模型建立:向量空间模型
采用基于线性代数的简单向量空间模型,允许局部匹配,排除布尔逻辑模型的硬性比对;
b)权重计算:词频逆文档频权重
词频逆文档频权重又被叫做TF-IDF(TermFrequency-InverseDocumentFrequency)权重。这种计算方法包含两部分:TF指的词频,即某个特征项在文本中出现了多少次,这个值计算前都会被处理,防以免受到文本长度的影响,所以这种权重计算方法把词频权重的思想引入进来;IDF指的逆文档频率,是对某个特征项普遍性的衡量,计算方法是用总的文档数量除以包含该特征项的文档的数量,再通过对数运算获得最后的值。如果所该特征项仅存在于个别的文档当中,说明该特征项的集中程度越高,它对文档类别的贡献率越高。
c)特征降维:信息增益
针对文本中出现的每个特征项来进行计算的,即观察文本中的某一个特征项,分类系统在包含它和没包含它的情况下信息量各是多少,然后两数做差,得到的值就是增益,表示特征项对分类系统的影响度,通过该值的计算,表明特征项对文本类别的贡献度的大小。
d)数据挖掘:-最近邻结点算法
KNN算法的原理是:通过计算将要分类的文本与训练文本集中的文本之间的密切程度,找出其中离将要分类文本最近的k个文本,观察这k个文本中属于哪个类别的文档最多,就将待分类文本归到那一类别中。
(3)数据展示
a)综合搜索模块
本模块接收查询输入内容,提交给solr服务,从索引文件中进行查询,返回符合条件的所有网页,并按“相关企业”、“新闻动态”、“股市行情”、“相关政策法规”等类别进行分类显示标题,标题链接具体内容。
b)企业搜索模块
本模块接收查询输入内容,提交给solr服务,从索引文件中进行查询,返回符合条件的企业,可以按照“所属行业”、“从业人数”、“区域”等进行搜索结果过滤,可以按综合排名、搜索量、开业日期、关注量等进行排序。进入企业链接,可以查看该企业概况(来自百度百科)、企业联系方式、股市信息、企业动态、采购信息、招投标信息、产品信息、行业动态、招聘信息以及企业关系网信息。
c)用户权限管理模块
完成系统用户权限管理,可根据权限对上述显示内容进行按需推送。
上述系统的具体实现方法包括以下步骤:
1.数据采集:采用网络爬虫实现数据的采集处理
1.1首先选取一部分精心挑选的种子URL;
1.2将这些URL放入待抓取URL队列;
1.3从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。
1.4分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。
2.文本预处理:对采集到的文本数据分词,去停用词,计算词语权重
假定分词词典中的最长词有i个汉字字符,则用被处理文档的当前字串中的前i个字作为匹配字段,查找字典。若字典中存在这样的一个i字词,则匹配成功,匹配字段被作为一个词切分出来。如果词典中找不到这样的一个i字词,则匹配失败,将匹配字段中的最后一个字去掉,对剩下的字串重新进行匹配处理……如此进行下去,直到匹配成功,即切分出一个词或剩余字串的长度为零为止。这样就完成了一轮匹配,然后取下一个i字字串进行匹配处理,直到文档被扫描完为止。
3.特征提取:采用LLE算法降低特征向量维数
3.1寻找每个样本点的k个近邻点;
3.2由每个样本点的近邻点计算出该样本点的局部重建权值矩阵;
3.3由该样本点的局部重建权值矩阵和其近邻点计算出该样本点的输出值。
4.文本分类:利用k-NN算法进行文本分类
如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的别。KNN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。
5.利用solr进行数据的搜索服务
Solr对外提供标准的http接口来实现对数据的索引的增加、删除、修改、查询。在Solr中,用户通过向部署在servlet容器中的SolrWeb应用程序发送HTTP请求来启动索引和搜索。Solr接受请求,确定要使用的适当SolrRequestHandler,然后处理请求。通过HTTP以同样的方式返回响应。默认配置返回Solr的标准XML响应,也可以配置Solr的备用响应格式。

Claims (3)

1.一种行业垂直搜索引擎系统,其特征在于:包括数据采集模块、数据处理模块、数据展示模块,
所述数据采集模块用于在行业信息相关网站中爬取相关网页,并将网页源文件保存到hbase数据库中;
所述数据处理模块通过以下方法对爬取到的相关网页进行数据处理:
1)采用向量空间模型建模;
2)采用词频逆文档频权重进行权重计算;
3)采用信息增益计算特征项的贡献程度大小;
4)采用-最近邻结点算法对待分类文本进行归类处理;
所述数据展示模块用于接收查询内容并展示搜索结果。
2.根据权利要求1所述的行业垂直搜索引擎系统,其特征在于,数据采集模块为每个数据来源网站建立适用的下载更新策略,启动定时更新任务。
3.根据权利要求1所述的行业垂直搜索引擎系统,其特征在于,所述数据展示模块包括:
1)综合搜索模块,用于接收查询输入内容,提交给solr服务,从索引文件中进行查询,返回符合条件的所有网页,并分类显示标题,标题链接具体内容;
2)企业搜索模块,用于接收查询输入内容,提交给solr服务,从索引文件中进行查询,返回符合条件的企业;
3)用户权限管理模块,用于完成系统用户权限管理,并根据权限对上述显示内容进行按需推送。
CN201510488122.4A 2015-08-11 2015-08-11 一种行业垂直搜索引擎系统 Pending CN105069112A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510488122.4A CN105069112A (zh) 2015-08-11 2015-08-11 一种行业垂直搜索引擎系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510488122.4A CN105069112A (zh) 2015-08-11 2015-08-11 一种行业垂直搜索引擎系统

Publications (1)

Publication Number Publication Date
CN105069112A true CN105069112A (zh) 2015-11-18

Family

ID=54498482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510488122.4A Pending CN105069112A (zh) 2015-08-11 2015-08-11 一种行业垂直搜索引擎系统

Country Status (1)

Country Link
CN (1) CN105069112A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868968A (zh) * 2016-04-21 2016-08-17 广州爱拼信息科技有限公司 基于机器学习的招聘信息解析系统及其方法
CN106202455A (zh) * 2016-07-14 2016-12-07 星云纵横(北京)大数据信息技术有限公司 一种实现多行业数据切换查询的数据查询系统及方法
CN107545007A (zh) * 2016-06-26 2018-01-05 国网天津市电力公司 电力大数据快速检索引擎
CN109597927A (zh) * 2018-12-05 2019-04-09 贵阳高新数通信息有限公司 招投标相关网页页面信息提取方法及系统
CN110109906A (zh) * 2019-05-08 2019-08-09 上海泰豪迈能能源科技有限公司 数据存储系统及方法
CN110489461A (zh) * 2019-08-21 2019-11-22 合肥天源迪科信息技术有限公司 一种行业数据分析服务平台
CN110516149A (zh) * 2019-08-22 2019-11-29 武汉东湖大数据交易中心股份有限公司 基于大数据的行业信息推送系统及方法
CN110837595A (zh) * 2019-11-05 2020-02-25 北京市燃气集团有限责任公司 一种企业信息资讯数据处理方法、系统、终端及存储介质
CN112801820A (zh) * 2021-02-05 2021-05-14 郝大伟 一种面向建筑施工企业的大数据采集方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251855A (zh) * 2008-03-27 2008-08-27 腾讯科技(深圳)有限公司 一种互联网网页清洗方法、系统及设备
CN101655857A (zh) * 2009-09-18 2010-02-24 西安建筑科技大学 基于关联规则挖掘技术挖掘建设法规领域数据的方法
CN103049542A (zh) * 2012-12-27 2013-04-17 北京信息科技大学 一种面向领域的网络信息搜索方法
CN103838785A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种专利领域的垂直搜索引擎

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251855A (zh) * 2008-03-27 2008-08-27 腾讯科技(深圳)有限公司 一种互联网网页清洗方法、系统及设备
CN101655857A (zh) * 2009-09-18 2010-02-24 西安建筑科技大学 基于关联规则挖掘技术挖掘建设法规领域数据的方法
CN103838785A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种专利领域的垂直搜索引擎
CN103049542A (zh) * 2012-12-27 2013-04-17 北京信息科技大学 一种面向领域的网络信息搜索方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868968A (zh) * 2016-04-21 2016-08-17 广州爱拼信息科技有限公司 基于机器学习的招聘信息解析系统及其方法
CN107545007A (zh) * 2016-06-26 2018-01-05 国网天津市电力公司 电力大数据快速检索引擎
CN106202455A (zh) * 2016-07-14 2016-12-07 星云纵横(北京)大数据信息技术有限公司 一种实现多行业数据切换查询的数据查询系统及方法
CN109597927A (zh) * 2018-12-05 2019-04-09 贵阳高新数通信息有限公司 招投标相关网页页面信息提取方法及系统
CN110109906A (zh) * 2019-05-08 2019-08-09 上海泰豪迈能能源科技有限公司 数据存储系统及方法
CN110489461A (zh) * 2019-08-21 2019-11-22 合肥天源迪科信息技术有限公司 一种行业数据分析服务平台
CN110516149A (zh) * 2019-08-22 2019-11-29 武汉东湖大数据交易中心股份有限公司 基于大数据的行业信息推送系统及方法
CN110837595A (zh) * 2019-11-05 2020-02-25 北京市燃气集团有限责任公司 一种企业信息资讯数据处理方法、系统、终端及存储介质
CN112801820A (zh) * 2021-02-05 2021-05-14 郝大伟 一种面向建筑施工企业的大数据采集方法

Similar Documents

Publication Publication Date Title
CN105069112A (zh) 一种行业垂直搜索引擎系统
CN101694658B (zh) 基于新闻去重的网页爬虫的构建方法
CN102043833B (zh) 一种基于查询词进行搜索的方法和搜索装置
CN109885773B (zh) 一种文章个性化推荐方法、系统、介质及设备
US8744197B2 (en) Identifying information related to a particular entity from electronic sources, using dimensional reduction and quantum clustering
US8185530B2 (en) Method and system for web document clustering
CN103226578B (zh) 面向医学领域的网站识别和网页细分类的方法
CN103838833A (zh) 基于相关词语语义分析的全文检索系统
CN101963965B (zh) 基于搜索引擎的文档索引方法、数据查询方法及服务器
CN107885793A (zh) 一种微博热点话题分析预测方法及系统
US9323834B2 (en) Semantic and contextual searching of knowledge repositories
CN104715064A (zh) 一种实现在网页上标注关键词的方法和服务器
CN108416034B (zh) 基于金融异构大数据的信息采集系统及其控制方法
CN105426529A (zh) 基于用户搜索意图定位的图像检索方法及系统
CN107301195A (zh) 生成用于搜索内容的分类模型方法、装置和数据处理系统
Wu et al. Extracting topics based on Word2Vec and improved Jaccard similarity coefficient
CN105912662A (zh) 基于Coreseek的垂直搜索引擎研究与优化的方法
WO2024065952A1 (zh) 一种遥感卫星资讯推荐方法、系统及设备
Tahir et al. Corpulyzer: A novel framework for building low resource language corpora
Viet et al. Analyzing recent research trends of computer science from academic open-access digital library
US20170235835A1 (en) Information identification and extraction
Liu et al. Detecting web spam based on novel features from web page source code
Li et al. Research of network data mining based on reliability source under big data environment
CN112115269A (zh) 一种基于爬虫的网页自动分类方法
CN112989163A (zh) 一种垂直搜索方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20151118