CN103927342A - 基于大数据的垂直搜索引擎系统 - Google Patents

基于大数据的垂直搜索引擎系统 Download PDF

Info

Publication number
CN103927342A
CN103927342A CN201410120944.2A CN201410120944A CN103927342A CN 103927342 A CN103927342 A CN 103927342A CN 201410120944 A CN201410120944 A CN 201410120944A CN 103927342 A CN103927342 A CN 103927342A
Authority
CN
China
Prior art keywords
search engine
index
engine system
vertical search
word segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410120944.2A
Other languages
English (en)
Inventor
官正轮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SUZHOU ZHONGYAN INDUSTRY AND TRADE Co Ltd
Original Assignee
SUZHOU ZHONGYAN INDUSTRY AND TRADE Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SUZHOU ZHONGYAN INDUSTRY AND TRADE Co Ltd filed Critical SUZHOU ZHONGYAN INDUSTRY AND TRADE Co Ltd
Priority to CN201410120944.2A priority Critical patent/CN103927342A/zh
Publication of CN103927342A publication Critical patent/CN103927342A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据的垂直搜索引擎系统,包括Lucene(1)、索引器(2)、检索器(3)、中文分词模块(4)、用户接口模块(5),其特征在于:所述Lucene(1)与索引器(2)连接,所述索引器(2)与检索器(3)相互连接,所述检索器(3)与中文分词模块(4)连接,所述用户接口模块(5)与中文分词模块(4)连接。本发明可以更加快速准确找到用户想要的搜索结果。

Description

基于大数据的垂直搜索引擎系统
技术领域
   本发明属于大数据方面的搜索技术领域,尤其涉及一种基于大数据的垂直搜索引擎系统。
背景技术
通用搜索引擎的出现很大程度上解决了人们在互联网上查找信息的困难,但随着Web上信息的快速增长,通用搜索引擎已经不能满足人们对个性化信息检索服务日益增长的需求。垂直搜索引擎是一种全新的搜索引擎服务模式,它是通用搜索引擎的细化和延伸。垂直搜索引擎(vertical search engine)也被称为专业搜索引擎,或主题搜索引擎,它专门收录某一方面、某一行业或某一主题内的信息,专为查询某一个学科或某一主题的信息提供检索服务,在解决某些实际查询问题的时候比综合搜索引擎更有效。具体而言,垂直搜索引擎就是把网页库中的某类专门信息进行了整合,定向分字段地抽取出需要的数据,然后进行深度加工处理,如去重、分类、分词、索引等,最后再以某种特定的形式返回给用户。它能为用户提供针对性更强、精确性更高的信息检索服务。垂直搜索引擎的应用方向很多,如地图搜索、音乐搜索、图片搜索、文献搜索、企业信息搜索、求职信息搜索、…… 涉及各行各业、各类信息都可被细化成相应的垂直搜索对象。
发明内容
本发明所要解决的技术问题是提供一种可以更加快速准确找到用户想要的搜索结果的基于大数据的垂直搜索引擎系统。
为解决上述技术问题,本发明提供一种基于大数据的垂直搜索引擎系统,包括Lucene、索引器、检索器、中文分词模块、用户接口模块,其特征在于:所述Lucene与索引器连接,所述索引器与检索器相互连接,所述检索器与中文分词模块连接,所述用户接口模块与中文分词模块连接。
进一步的,所述Lucene是一个全文检索引擎的架构。
进一步的,所述索引器负责对原始数据库的文档构造索引,并且存储在索引数据库中。
进一步的,所述检索器利用索引数据库中的索引来查找与用户查询相匹配的文档,计算各个文档和查询关键词的相关度,并将相关度大于阈值的文档按照相关度递减的顺序排列,返回给用户。
进一步的,所述中文分词模块使用全二分最大匹配快速分词算法。
更进一步的,所述用户接口模块为可视化的查询输入和结果输出界面。
与现有技术相比,本发明的有益效果为:
本发明可以更加快速准确找到用户想要的搜索结果。
附图说明
图1为本发明结构示意图。
图中:Lucene1、索引器2、检索器3、中文分词模块4、用户接口模块5。
具体实施方式
以下结合附图和具体实施方式对本发明做进一步详细说明。
参见图1所示,一种基于大数据的垂直搜索引擎系统,包括Lucene1、索引器2、检索器3、中文分词模块4、用户接口模块5,所述Lucene1与索引器2连接,所述索引器2与检索器3相互连接,所述检索器3与中文分词模块4连接,所述用户接口模块5与中文分词模块4连接,所述Lucene1是一个全文检索引擎的架构,所述索引器2负责对原始数据库的文档构造索引,并且存储在索引数据库中,所述检索器3利用索引数据库中的索引来查找与用户查询相匹配的文档,计算各个文档和查询关键词的相关度,并将相关度大于阈值的文档按照相关度递减的顺序排列,返回给用户,所述中文分词模块4使用全二分最大匹配快速分词算法,所述用户接口模块,5为可视化的查询输入和结果输出界面,所述一个全二分最大匹配快速分词算法,这种分词算法每次的匹配操作都可以记忆,使得不需要任何的重复匹配操作,而且匹配操作都是使用二分法进行的,这样就最大限度地提高了分词的效率。
综上所示,本发明可以更加快速准确找到用户想要的搜索结果。
以上所述仅为本发明的较佳实施方式,本发明的保护范围并不以上述实施方式为限,但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化,皆应纳入权利要求书中记载的保护范围内。

Claims (6)

1.一种基于大数据的垂直搜索引擎系统,包括Lucene(1)、索引器(2)、检索器(3)、中文分词模块(4)、用户接口模块(5),其特征在于:所述Lucene(1)与索引器(2)连接,所述索引器(2)与检索器(3)相互连接,所述检索器(3)与中文分词模块(4)连接,所述用户接口模块(5)与中文分词模块(4)连接。
2.根据权利要求1所述的一种基于大数据的垂直搜索引擎系统,其特征在于:所述Lucene(1)是一个全文检索引擎的架构。
3.根据权利要求1所述的一种基于大数据的垂直搜索引擎系统,其特征在于:所述索引器(2)负责对原始数据库的文档构造索引,并且存储在索引数据库中。
4.根据权利要求1所述的一种基于大数据的垂直搜索引擎系统,其特征在于:所述检索器(3)利用索引数据库中的索引来查找与用户查询相匹配的文档,计算各个文档和查询关键词的相关度,并将相关度大于阈值的文档按照相关度递减的顺序排列,返回给用户。
5.根据权利要求1所述的一种基于大数据的垂直搜索引擎系统,其特征在于:所述中文分词模块(4) 使用全二分最大匹配快速分词算法。
6.根据权利要求1所述的一种基于大数据的垂直搜索引擎系统,其特征在于:所述用户接口模块(5)为可视化的查询输入和结果输出界面。
CN201410120944.2A 2014-03-28 2014-03-28 基于大数据的垂直搜索引擎系统 Pending CN103927342A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410120944.2A CN103927342A (zh) 2014-03-28 2014-03-28 基于大数据的垂直搜索引擎系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410120944.2A CN103927342A (zh) 2014-03-28 2014-03-28 基于大数据的垂直搜索引擎系统

Publications (1)

Publication Number Publication Date
CN103927342A true CN103927342A (zh) 2014-07-16

Family

ID=51145563

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410120944.2A Pending CN103927342A (zh) 2014-03-28 2014-03-28 基于大数据的垂直搜索引擎系统

Country Status (1)

Country Link
CN (1) CN103927342A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183884A (zh) * 2015-09-24 2015-12-23 西安未来国际信息股份有限公司 一种基于大数据技术的搜索引擎系统及搜索引擎方法
CN106294695A (zh) * 2016-08-08 2017-01-04 深圳市网安计算机安全检测技术有限公司 一种面向实时大数据搜索引擎的实现方法
CN108197212A (zh) * 2017-12-28 2018-06-22 浙江科澜信息技术有限公司 一种地理信息要素的检索方法、装置、设备及存储介质
CN111368153A (zh) * 2020-03-23 2020-07-03 百度在线网络技术(北京)有限公司 搜索方法及装置
CN113190644A (zh) * 2021-05-24 2021-07-30 浪潮软件科技有限公司 热更新搜索引擎分词字典的方法及装置
EP3913503A4 (en) * 2020-03-23 2022-01-12 Baidu Online Network Technology (Beijing) Co., Ltd. RESEARCH METHOD AND APPARATUS

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271464A (zh) * 2007-11-26 2008-09-24 北京九城网络软件有限公司 一种互联网搜索引擎的搜索方法
US20090106203A1 (en) * 2007-10-18 2009-04-23 Zhongmin Shi Method and apparatus for a web search engine generating summary-style search results
CN102799686A (zh) * 2012-07-30 2012-11-28 河海大学 基于云平台的水利信息垂直搜索方法
CN102968495A (zh) * 2012-11-29 2013-03-13 河海大学 搜索对比关联购物信息的垂直搜索引擎及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090106203A1 (en) * 2007-10-18 2009-04-23 Zhongmin Shi Method and apparatus for a web search engine generating summary-style search results
CN101271464A (zh) * 2007-11-26 2008-09-24 北京九城网络软件有限公司 一种互联网搜索引擎的搜索方法
CN102799686A (zh) * 2012-07-30 2012-11-28 河海大学 基于云平台的水利信息垂直搜索方法
CN102968495A (zh) * 2012-11-29 2013-03-13 河海大学 搜索对比关联购物信息的垂直搜索引擎及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李振星 等: "全二分最大匹配快速分词算法", 《计算机工程与应用》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183884A (zh) * 2015-09-24 2015-12-23 西安未来国际信息股份有限公司 一种基于大数据技术的搜索引擎系统及搜索引擎方法
CN106294695A (zh) * 2016-08-08 2017-01-04 深圳市网安计算机安全检测技术有限公司 一种面向实时大数据搜索引擎的实现方法
CN108197212A (zh) * 2017-12-28 2018-06-22 浙江科澜信息技术有限公司 一种地理信息要素的检索方法、装置、设备及存储介质
CN111368153A (zh) * 2020-03-23 2020-07-03 百度在线网络技术(北京)有限公司 搜索方法及装置
EP3913503A4 (en) * 2020-03-23 2022-01-12 Baidu Online Network Technology (Beijing) Co., Ltd. RESEARCH METHOD AND APPARATUS
US11500947B2 (en) 2020-03-23 2022-11-15 Baidu Online Network Technology (Beijing) Co., Ltd. Search method and apparatus
CN111368153B (zh) * 2020-03-23 2023-08-29 百度在线网络技术(北京)有限公司 搜索方法及装置
CN113190644A (zh) * 2021-05-24 2021-07-30 浪潮软件科技有限公司 热更新搜索引擎分词字典的方法及装置
CN113190644B (zh) * 2021-05-24 2023-01-13 浪潮软件科技有限公司 热更新搜索引擎分词字典的方法及装置

Similar Documents

Publication Publication Date Title
CN105653706B (zh) 一种基于文献内容知识图谱的多层引文推荐方法
CN103927342A (zh) 基于大数据的垂直搜索引擎系统
CN112507068B (zh) 文档查询方法、装置、电子设备和存储介质
CN108701161B (zh) 为搜索查询提供图像
WO2019041521A1 (zh) 用户关键词提取装置、方法及计算机可读存储介质
CN103488724A (zh) 一种面向图书的阅读领域知识图谱构建方法
CN103810218A (zh) 一种基于问题簇的自动问答方法和装置
CN103678275A (zh) 一种基于主客观语义的双层次文本相似度计算方法
CN104933130A (zh) 评论信息的标注方法及装置
CN104346446A (zh) 一种基于知识图谱的论文关联信息推荐方法及装置
CN104850554A (zh) 一种搜索方法和系统
CN103744984B (zh) 一种利用语义信息检索文档的方法
CN103034627B (zh) 计算句子相似度的方法和装置以及机器翻译的方法和装置
CN104915405B (zh) 一种基于多层次的微博查询扩展方法
CN104537341A (zh) 人脸图片信息获取方法和装置
CN110765761A (zh) 基于人工智能的合同敏感词校验方法、装置及存储介质
CN103577462A (zh) 一种文档分类方法及装置
CN109308315A (zh) 一种基于专家领域相似度与关联关系的协同推荐方法
CN106294358A (zh) 一种信息的检索方法及系统
CN104281694A (zh) 一种文本情感倾向分析系统
KR101696499B1 (ko) 한국어 키워드 검색문 해석 장치 및 방법
WO2017216642A3 (en) Cross lingual search using multi-language ontology for text based communication
CN104216979A (zh) 中文工艺专利自动分类系统及利用该系统进行专利分类的方法
CN103294820A (zh) 基于语义扩展的web页面归类方法和系统
CN103064907A (zh) 基于无监督的实体关系抽取的主题元搜索系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140716

WD01 Invention patent application deemed withdrawn after publication