CN107958005A - 一种基于Lucene的医疗搜索引擎服务系统建设方法 - Google Patents

一种基于Lucene的医疗搜索引擎服务系统建设方法 Download PDF

Info

Publication number
CN107958005A
CN107958005A CN201610903691.5A CN201610903691A CN107958005A CN 107958005 A CN107958005 A CN 107958005A CN 201610903691 A CN201610903691 A CN 201610903691A CN 107958005 A CN107958005 A CN 107958005A
Authority
CN
China
Prior art keywords
search engine
lucene
service system
search
medical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610903691.5A
Other languages
English (en)
Inventor
李淑范
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Guangkai Technology Development Co Ltd
Original Assignee
Harbin Guangkai Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Guangkai Technology Development Co Ltd filed Critical Harbin Guangkai Technology Development Co Ltd
Priority to CN201610903691.5A priority Critical patent/CN107958005A/zh
Publication of CN107958005A publication Critical patent/CN107958005A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3349Reuse of stored results of previous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于Lucene的医疗搜索引擎服务系统建设方法,所述方法包括以下步骤:第一步,实现对网络信息的分布式抓取与检索;第二步,实现对专业词汇的分析和切分;第三步,构建搜索引擎信息检索服务器;第四步,设计新的网页评分机制。本发明的基于Lucene的医疗搜索引擎服务系统建设方法,通过分析搜索引擎的基本原理,采用hadoop的map‑reduce编程模型,同时基于Lucene开源工具包,开发出一款适合医疗领域的搜索引擎服务系统。

Description

一种基于Lucene的医疗搜索引擎服务系统建设方法
技术领域
本发明涉及一种基于Lucene的医疗搜索引擎服务系统建设方法,属于医疗卫生服务互联网技术领域。
背景技术
近年来,计算机与互联网技术迅猛发展,网络上的信息量与日俱增,人们要从如此庞大的信息量中搜索出我们需要的信息成了一项重要而艰巨的任务;搜索引擎在网络世界中正扮演着越来越重要的角色;搜索引擎的信息检索和索引效率是决定一个搜索引擎性能的关键因素;当信息量增大,索引量也随之增大,这时搜索引擎服务器的压力会显著升高,搜索引擎的索引更新效率会明显下降。因此,单机型的搜索引擎系统难以满足高数据量和高并发量的需求,为了提高搜索引擎的新能,提升系统处理海量数据的能力,构建分布式的搜索引擎系统是解决问题的有效方法;Hadoop是云计算领域最具代表性的一个开源项目,Hadoop为广大开发者提供了很好的分布式框架,使开发者开发出适合自己的分布式应用程序。当前,互联网上的各种搜索引擎得到了广大用户的青睐;然而,随着各个领域信息的不断深入和细化,通用的搜索引擎已经越来越难以满足不同领域用户的需求;因此,开发出针对特定领域的信息搜索引擎是非常有必要的;众所周知,医疗卫生事业是关系着人类生存、健康的重要事业;随着科技的发展,医疗卫生领域的信息化不断加深,医疗领域的信息量日渐庞大,人们对医疗信息的获取也日益迫切;如何快速、准确地获取第一手的医疗信息是人们亟待解决的问题。
发明内容
为解决上述问题,本发明提出了一种基于Lucene的医疗搜索引擎服务系统建设方法,通过分析搜索引擎的基本原理,采用hadoop的map-reduce编程模型,同时基于Lucene开源工具包,开发出一款适合医疗领域的搜索引擎服务系统。
本发明的基于Lucene的医疗搜索引擎服务系统建设方法,所述方法包括以下步骤:
第一步,分析介绍Lucene开发搜索引擎的相关技术和hadoop分布式文件系统的原理;基于hadoop的map-reduce编程模型,设计出分布式网络爬虫程序,实现对网络信息的分布式抓取与检索;
第二步,将开源中文分词器加入系统中,在网页和信息分析时实现中文分词功能,对文章中的语句进行正确有效的切分,达到预定的中文分词效果;同时加入专门的医疗词库,实现对专业词汇的分析和切分;
第三步,构建搜索引擎信息检索服务器,使用户通过服务器提供的服务查询想要的信息;将heartbeat组件和DRBD技术进行结合,构建高容错性的分布式集群环境;
第四步,在搜索结果排序功能模块中,设计新的网页评分机制,在pagerank算法的基础上结合主题相关性判断,同时增加专业词汇的权重,提高搜索结果的准确性。
本发明与现有技术相比较,本发明的基于Lucene的医疗搜索引擎服务系统建设方法,通过分析搜索引擎的基本原理,采用hadoop的map-reduce编程模型,同时基于Lucene开源工具包,开发出一款适合医疗领域的搜索引擎服务系统。
具体实施方式
本发明的基于Lucene的医疗搜索引擎服务系统建设方法,所述方法包括以下步骤:
第一步,分析介绍Lucene开发搜索引擎的相关技术和hadoop分布式文件系统的原理;基于hadoop的map-reduce编程模型,设计出分布式网络爬虫程序,实现对网络信息的分布式抓取与检索;
第二步,将开源中文分词器加入系统中,在网页和信息分析时实现中文分词功能,对文章中的语句进行正确有效的切分,达到预定的中文分词效果;同时加入专门的医疗词库,实现对专业词汇的分析和切分;
第三步,构建搜索引擎信息检索服务器,使用户通过服务器提供的服务查询想要的信息;将heartbeat组件和DRBD技术进行结合,构建高容错性的分布式集群环境;
第四步,在搜索结果排序功能模块中,设计新的网页评分机制,在pagerank算法的基础上结合主题相关性判断,同时增加专业词汇的权重,提高搜索结果的准确性。
本发明的基于Lucene的医疗搜索引擎服务系统建设方法,通过分析搜索引擎的基本原理,采用hadoop的map-reduce编程模型,同时基于Lucene开源工具包,开发出一款适合医疗领域的搜索引擎服务系统。
上述实施例,仅是本发明的较佳实施方式,故凡依本发明专利申请范围所述的构造、特征及原理所做的等效变化或修饰,均包括于本发明专利申请范围内。

Claims (1)

1.一种基于Lucene的医疗搜索引擎服务系统建设方法,其特征在于,所述方法包括以下步骤:
第一步,分析介绍Lucene开发搜索引擎的相关技术和hadoop分布式文件系统的原理;基于hadoop的map-reduce编程模型,设计出分布式网络爬虫程序,实现对网络信息的分布式抓取与检索;
第二步,将开源中文分词器加入系统中,在网页和信息分析时实现中文分词功能,对文章中的语句进行正确有效的切分,达到预定的中文分词效果;同时加入专门的医疗词库,实现对专业词汇的分析和切分;
第三步,构建搜索引擎信息检索服务器,使用户通过服务器提供的服务查询想要的信息;将heartbeat组件和DRBD技术进行结合,构建高容错性的分布式集群环境;
第四步,在搜索结果排序功能模块中,设计新的网页评分机制,在pagerank算法的基础上结合主题相关性判断,同时增加专业词汇的权重,提高搜索结果的准确性。
CN201610903691.5A 2016-10-17 2016-10-17 一种基于Lucene的医疗搜索引擎服务系统建设方法 Pending CN107958005A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610903691.5A CN107958005A (zh) 2016-10-17 2016-10-17 一种基于Lucene的医疗搜索引擎服务系统建设方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610903691.5A CN107958005A (zh) 2016-10-17 2016-10-17 一种基于Lucene的医疗搜索引擎服务系统建设方法

Publications (1)

Publication Number Publication Date
CN107958005A true CN107958005A (zh) 2018-04-24

Family

ID=61954484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610903691.5A Pending CN107958005A (zh) 2016-10-17 2016-10-17 一种基于Lucene的医疗搜索引擎服务系统建设方法

Country Status (1)

Country Link
CN (1) CN107958005A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984718A (zh) * 2018-07-10 2018-12-11 四川汇源吉迅数码科技有限公司 一种基于大数据技术的数字内容交互系统及交互方法
CN109388649A (zh) * 2018-09-28 2019-02-26 湖南土流信息有限公司 一种土地智能推荐方法及系统
CN110134851A (zh) * 2019-05-05 2019-08-16 北京科技大学 一种基于领域内网的搜索引擎系统及构建方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984718A (zh) * 2018-07-10 2018-12-11 四川汇源吉迅数码科技有限公司 一种基于大数据技术的数字内容交互系统及交互方法
CN109388649A (zh) * 2018-09-28 2019-02-26 湖南土流信息有限公司 一种土地智能推荐方法及系统
CN110134851A (zh) * 2019-05-05 2019-08-16 北京科技大学 一种基于领域内网的搜索引擎系统及构建方法

Similar Documents

Publication Publication Date Title
Wang et al. Relevant document discovery for fact-checking articles
US10853344B2 (en) Understanding tables for search
CN105468605B (zh) 一种实体信息图谱生成方法及装置
CN105653590B (zh) 一种中文文献作者重名消歧的方法
Carley et al. Toward an interoperable dynamic network analysis toolkit
Zhang et al. Automatic synonym extraction using Word2Vec and spectral clustering
CN111597308A (zh) 一种基于知识图谱的语音问答系统及其应用方法
CN104484411B (zh) 一种基于词典的语义知识库的构建方法
CN107690634B (zh) 自动查询模式生成方法及系统
Ju et al. Things and strings: improving place name disambiguation from short texts by combining entity co-occurrence with topic modeling
CN110020189A (zh) 一种基于中文相似性计算的文章推荐方法
CN102663129A (zh) 医疗领域深度问答方法及医学检索系统
CN105528437A (zh) 一种基于结构化文本知识提取的问答系统构建方法
WO2015093539A1 (ja) 複雑述語テンプレート収集装置、及びそのためのコンピュータプログラム
Tao et al. Eventcube: multi-dimensional search and mining of structured and text data
CN107958005A (zh) 一种基于Lucene的医疗搜索引擎服务系统建设方法
CN104699695B (zh) 一种基于多特征语义树核的关系抽取方法和信息检索方法
Lin et al. List-only entity linking
CN103226546A (zh) 一种基于分词和词性分析的后缀树聚类方法
CN110377690A (zh) 一种基于远程关系抽取的信息获取方法和系统
CN105205075B (zh) 基于协同自扩展的命名实体集合扩展方法及查询推荐方法
CN106777395A (zh) 一种基于社区文本数据的话题发现系统
Kuppusamy et al. Museum: Multidimensional web page segment evaluation model
Huang et al. Web Service based Intelligent Search on Legal Documents
Kurimo et al. Morpho challenge evaluation by information retrieval experiments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180424

WD01 Invention patent application deemed withdrawn after publication