CN104537101A - 医学信息搜索引擎系统和搜索方法 - Google Patents
医学信息搜索引擎系统和搜索方法 Download PDFInfo
- Publication number
- CN104537101A CN104537101A CN201510015257.9A CN201510015257A CN104537101A CN 104537101 A CN104537101 A CN 104537101A CN 201510015257 A CN201510015257 A CN 201510015257A CN 104537101 A CN104537101 A CN 104537101A
- Authority
- CN
- China
- Prior art keywords
- module
- medical information
- participle
- index
- memory module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000011218 segmentation Effects 0.000 claims description 19
- 230000008878 coupling Effects 0.000 claims description 12
- 238000010168 coupling process Methods 0.000 claims description 12
- 238000005859 coupling reaction Methods 0.000 claims description 12
- 238000009826 distribution Methods 0.000 claims description 6
- 238000010205 computational analysis Methods 0.000 claims 1
- 238000013500 data storage Methods 0.000 abstract 3
- 238000010586 diagram Methods 0.000 description 23
- 206010020850 Hyperthyroidism Diseases 0.000 description 7
- 239000003814 drug Substances 0.000 description 7
- KNAHARQHSZJURB-UHFFFAOYSA-N Propylthiouracile Chemical compound CCCC1=CC(=O)NC(=S)N1 KNAHARQHSZJURB-UHFFFAOYSA-N 0.000 description 4
- 229960002662 propylthiouracil Drugs 0.000 description 4
- 229940079593 drug Drugs 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000007689 inspection Methods 0.000 description 2
- PMRYVIKBURPHAH-UHFFFAOYSA-N methimazole Chemical compound CN1C=CNC1=S PMRYVIKBURPHAH-UHFFFAOYSA-N 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/22—Social work or social welfare, e.g. community support activities or counselling services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Child & Adolescent Psychology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种医学信息搜索引擎系统和搜索方法,其中医学信息搜索引擎系统包括:医学语义词库存储模块,用于存储医学领域的同义词、近义词和关联词;语义分析模块,用于接收查询指令,并基于医学语义词库存储模块分析生成分词组合;索引模块,用于基于数据库生成分词索引,并分布存储至存储节点,生成或扩展分布式索引数据存储模块所存储的数据;分布式索引数据存储模块,用于存储分词索引;搜索模块,用于在分布式索引数据存储模块中搜索分词组合。本发明通过设置医学语义词库存储模块精准地拓展了搜索的关键词,显著提升了医学领域的搜索性能。
Description
技术领域
本发明涉及搜索引擎技术领域,尤其涉及一种医学信息搜索引擎系统和搜索方法。
背景技术
随着医学信息不断膨胀和扩张,对医学精准搜索和词意正确关联就越来越重要了,快速帮助医生或者病人找到正确的资料的需求更为紧迫。
传统的搜索引擎通常基于普通模糊搜索或者分词搜索,有时候一个词汇搜索的结果查全率会很低。例如:搜索“甲亢”这个关键词,英文对应的是“hyperthyreosis”,治疗的相关药物是丙硫氧嘧啶和他巴唑。如果用传统搜索引擎,仅仅只能搜索到包含“甲亢”相关分词的数据,而治疗甲亢的药物或者资料就无法被检索到。
此外,基于文档的索引系统,在索引多线程方面存在瓶颈,同一时间可以有多个线程对索引库进行读操作,但只能允许一个线程对索引库进行写操作。因此在索引的分布式方面,并行操作的效率有待提高。
发明内容
在下文中给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明提供一种医学信息搜索引擎系统和搜索方法,用以解决现有搜索引擎对于医学领域检索查全率低,难以搜索到相关药物或资料,以及索引分布式并行操作效率有待提高的问题。
本发明提供一种医学信息搜索引擎系统,包括:
医学语义词库存储模块,用于存储医学领域的同义词、近义词和关联词。
语义分析模块,用于接收查询指令,基于所述医学语义词库存储模块对所述查询指令进行分析,生成分词组合。
索引模块,用于基于数据库生成分词索引,将所述分词索引分布存储至存储节点,生成或扩展分布式索引数据存储模块所存储的数据。
分布式索引数据存储模块,用于存储所述分词索引。
搜索模块,用于对所述分词组合在所述分布式索引数据存储模块中搜索匹配,得到搜索结果。
本发明还提供一种医学信息搜索方法,包括:
接收查询指令,对查询指令进行分词处理。
基于医学语义词库存储模块对所述查询指令的分词结果进行分析,生成分词组合。
对所述分词组合在分布式索引数据存储模块中搜索匹配,得到搜索结果。
本发明提供的医学信息搜索引擎系统和搜索方法通过设置包括医学领域同义词、近义词和关联词的医学语义词库存储模块精准地拓展了搜索的关键词,有效地提升了查全率的同时保持了查准率,基于不同数据库进行搜索后将搜索结果分类合并的设计,可以分类输出医学文献、药物、病例等不同类别的搜索结果。本发明生成分词索引的设计对索引进行读写分离,通过对搜索词建立子库,实现了索引库的横向分割,每个子索引库并行操作的可能性将大大减少。综上所述,本发明显著地提升了搜索引擎在医学领域的搜索性能。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。
图1为本发明的医学信息搜索引擎系统的第一实施方式的模块示意图。
图2为本发明的医学信息搜索引擎系统的第二实施方式的模块示意图。
图3为本发明的医学信息搜索引擎系统的第三实施方式的模块示意图。
图4为本发明的医学信息搜索引擎系统的第四实施方式的模块示意图。
图5为本发明的医学信息搜索引擎系统的第五实施方式的模块示意图。
图6为本发明的医学信息搜索引擎系统的第六实施方式的模块示意图。
图7为本发明的医学信息搜索方法的第一实施方式的流程图。
图8为本发明的医学信息搜索方法的第二实施方式的流程图。
图9为本发明的医学信息搜索方法的第三实施方式的流程图。
图10为本发明的医学信息搜索方法的第四实施方式的流程图。
图11为本发明的医学信息搜索方法的第五、第六实施方式的流程图。
具体实施方式
下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。
第一实施方式:
图1为本发明的医学信息搜索引擎系统的第一实施方式的模块示意图。
如图1所示,在本实施方式中,本发明的医学信息搜索引擎系统包括医学语义词库存储模块10、语义分析模块30、索引模块50、分布式索引数据存储模块70和搜索模块80。
医学语义词库存储模块10,用于存储医学领域的同义词、近义词和关联词。具体地,医学语义词库存储模块10中存储了医学领域的包括中文的多国语言同义词、近义词和关联词,为语义分析模块30起到支撑作用。
语义分析模块30,用于接收查询指令,基于医学语义词库存储模块10对所述查询指令进行分析,生成分词组合。具体地,语义分析模块30接收查询指令,对查询指令进行分词操作,对所述分词操作的结果在医学语义词库存储模块中查询同义词、近义词和关联词,并根据预设的算法进行筛选和排序,生成分词组合。
优选地,所述分词组合还包括相关度数据。语义分析模块30基于分词操作结果中分词的同义词、近义词和/或关联词与所述分词的相关度分析得出所述相关度数据。
索引模块50,用于基于数据库生成分词索引,将所述分词索引分布存储至存储节点,生成或扩展分布式索引数据存储模块70所存储的数据。具体地,索引模块50基于数据库和预设定的分词生成分词索引,根据预设的算法查找到每个预设定的分词所对应的存储节点,将所述分词所对应的分词索引存储至所查找到的存储节点上,生成分布式索引数据存储模块70。
分布式索引数据存储模块70,用于存储所述分词索引。具体地,所述存储节点为映射到物理节点上的虚拟节点,在本实施方式中,所述虚拟节点的数量设置为256,所述物理节点的数量设置为16。
搜索模块80,用于对所述分词组合在所述分布式索引数据存储模块70中搜索匹配,得到搜索结果。具体地,所述搜索模块80基于Lucene构建。
图7为本发明的医学信息搜索方法的第一实施方式的流程图。
如图7所示,在本实施方式中,本发明的医学信息搜索方法包括:
S10:接收查询指令,对查询指令进行分词处理。具体地,语义分析模块20接收查询指令,对查询指令进行分词操作。
S20:基于医学语义词库存储模块10对所述查询指令的分词结果进行分析,生成分词组合。具体地,语义分析模块30对所述分词操作的结果中各分词在医学语义词库存储模块中查询同义词、近义词和关联词,并根据预设的算法进行筛选和排序,生成分词组合。例如搜索“甲亢怎么治疗”时,语义分析模块30对搜索指令进行分词,得到“甲亢”、“怎么”、“治疗”等分词,在医学语义词库存储模块10查询各分词的同义词、近义词和关联词,得到甲亢的同义词“hyperthyreosis”、关联词“丙硫氧嘧啶”、“他巴唑”等分词,再根据预设的算法进行筛选和排序,生成分词组合。
S70:对所述分词组合在分布式索引数据存储模块中搜索匹配,得到搜索结果。具体地,搜索模块80对所述分词组合在分布式索引数据存储模块70中搜索匹配,得到搜索结果。
第二实施方式:
本实施方式为第一实施方式的一种优选方案。
图2为本发明的医学信息搜索引擎系统的第二实施方式的模块示意图。
如图2所示,在本实施方式中,本发明的医学信息搜索引擎系统包括医学语义词库存储模块10、语义分析模块30、权重计算模块40、索引模块50、分布式索引数据存储模块70和搜索模块80。
与第一实施方式的医学信息搜索引擎系统相较,本实施方式的医学信息搜索引擎系统增加了权重计算模块40:
权重计算模块40,用于计算分词的加权值,将所述加权值添加进所述分词组合。具体地,权重计算模块40分别对分词组合中的分词计算加权值,将计算所得加权值与分词组合中的分词相对应地加入分词组合中。
优选地,权重计算模块40通过所述相关度数据计算所述加权值。
图8为本发明的医学信息搜索方法的第二实施方式的流程图。
如图8所示,在本实施方式中,本发明的医学信息搜索方法包括:
S10:接收查询指令,对查询指令进行分词处理。
S20:基于医学语义词库存储模块对所述查询指令的分词结果进行分析,生成分词组合。
S30:计算所述分词组合中分词的加权值,在所述分词组合中添加所述加权值。
S70:对所述分词组合在分布式索引数据存储模块中搜索匹配,得到搜索结果。
与第一实施方式的医学信息搜索方法相较,本实施方式的医学信息搜索方法增加了步骤S30:计算所述分词组合中分词的加权值,在所述分词组合中添加所述加权值。具体地,权重计算模块40通过所述相关度数据分别对分词组合中的分词计算加权值,将计算所得加权值与分词组合中的分词相对应地加入分词组合中。
第三实施方式:
本实施方式为第二实施方式的一种优选方案。
图3为本发明的医学信息搜索引擎系统的第三实施方式的模块示意图。
如图3所示,在本实施方式中,本发明的医学信息搜索引擎系统包括医学语义词库存储模块10、语义分析模块30、权重计算模块40、索引模块50、分布式索引数据存储模块70、搜索模块80和数据合并模块90。索引模块50和分布式索引数据存储模块70的数量各为两个,索引模块1对应分布式索引数据存储模块1,索引模块2对应分布式索引数据存储模块2。
与第二实施方式的医学信息搜索引擎系统相较,本实施方式的医学信息搜索引擎系统的搜索模块80基于两个不同的数据库进行搜索,分别对应所述两个不同数据库的索引模块1和索引模块2分别生成分布式索引数据存储模块1和分布式索引数据存储模块2。
与第二实施方式的医学信息搜索引擎系统相较,本实施方式的医学信息搜索引擎系统还增加了数据合并模块90:
数据合并模块90,用于将分别对应不同分布式索引数据存储模块70的搜索模块80搜索得到的搜索结果进行分组合并。具体地,搜索模块80分别对分布式索引数据存储模块1和分布式索引数据存储模块2进行搜索,得到第一搜索结果和第二搜索结果,数据合并模块90对所述第一搜索结果和第二搜索结果进行分组合并。
例如搜索“甲亢怎么治疗”时,索引模块1基于医学文献数据库生成分布式索引数据存储模块1,索引模块2基于药物数据库生成分布式索引数据存储模块2,搜索模块80分别在分布式索引数据存储模块1和分布式索引数据存储模块2中搜索得到第一搜索结果和第二搜索结果,数据合并模块90对所述第一搜索结果和第二搜索结果按照“文献”、“药物”、“病例”、“指南”、“检验”、“工具”等类别进行分组合并,其中“文献”类别按照期刊类别进行再分组,“检验”类别按照检验项目进行再分组。
图9为本发明的医学信息搜索方法的第三实施方式的流程图。
如图9所示,在本实施方式中,本发明的医学信息搜索方法包括:
S10:接收查询指令,对查询指令进行分词处理。
S20:基于医学语义词库存储模块对所述查询指令的分词结果进行分析,生成分词组合。
S30:计算所述分词组合中分词的加权值,在所述分词组合中添加所述加权值。
S70:对所述分词组合在分布式索引数据存储模块中搜索匹配,得到搜索结果。
S90:得到在不同分布式索引数据存储模块进行搜索的搜索结果后,对搜索结果进行分组合并。
与第二实施方式的医学信息搜索方法相较,本实施方式的医学信息搜索方法增加了步骤S90:得到在不同分布式索引数据存储模块进行搜索的搜索结果后,对搜索结果进行分组合并。具体地,搜索模块80分别对分布式索引数据存储模块1和分布式索引数据存储模块2进行搜索,得到第一搜索结果和第二搜索结果,数据合并模块90对所述第一搜索结果和第二搜索结果进行分组合并。
第四实施方式:
本实施方式为第二实施方式的一种优选方案。
图4为本发明的医学信息搜索引擎系统的第四实施方式的模块示意图。
如图4所示,在本实施方式中,本发明的医学信息搜索引擎系统包括医学语义词库存储模块10、语义分析模块30、权重计算模块40、索引模块50、分布式索引数据存储模块70和搜索模块80。
与第二实施方式的医学信息搜索引擎系统相较,本实施方式的医学信息搜索引擎系统的索引模块50还用于基于数据库和所述分词组合扩展分布式索引数据存储模块70。具体地,索引模块50基于数据库和分词组合中的分词生成分词索引,根据预设的算法查找到每个分词组合中的分词所对应的存储节点,将所述生成的分词索引存储至所查找到的存储节点上,扩展分布式索引数据存储模块70。
在本实施方式中,虚拟节点数量设置为4096,所述虚拟节点所映射的物理节点数量为16,索引模块50生成所述分词索引时采用异步子线程模式。
图10为本发明的医学信息搜索方法的第四实施方式的流程图。
如图10所示,在本实施方式中,本发明的医学信息搜索方法包括:
S10:接收查询指令,对查询指令进行分词处理。
S20:基于医学语义词库存储模块对所述查询指令的分词结果进行分析,生成分词组合。
S30:计算所述分词组合中分词的加权值,在所述分词组合中添加所述加权值。
S50:基于数据库和分词组合生成分词索引,将分词索引存储至存储节点,扩展分布式索引数据存储模块。
S70:对所述分词组合在分布式索引数据存储模块中搜索匹配,得到搜索结果。
与第二实施方式的医学信息搜索方法相较,本实施方式的医学信息搜索方法增加了步骤S50:基于数据库和分词组合生成分词索引,将分词索引存储至存储节点,扩展分布式索引数据存储模块。具体地,索引模块50基于数据库和分词组合中的分词生成分词索引,根据预设的算法查找到每个分词组合中的分词所对应的存储节点,将所述生成的分词索引存储至所查找到的存储节点上,扩展分布式索引数据存储模块70。
第五实施方式:
本实施方式为第四实施方式的一种优选方案。
图5为本发明的医学信息搜索引擎系统的第五实施方式的模块示意图。
如图5所示,在本实施方式中,本发明的医学信息搜索引擎系统包括医学语义词库存储模块10、语义分析模块30、权重计算模块40、索引模块50、分布式索引数据存储模块70、搜索模块80和数据合并模块90。
与第四实施方式的医学信息搜索引擎系统相较,本实施方式的医学信息搜索引擎系统的搜索模块80基于两个不同的数据库进行搜索,分别对应所述两个不同数据库的索引模块1和索引模块2分别生成分布式索引数据存储模块1和分布式索引数据存储模块2。
与第四实施方式的医学信息搜索引擎系统相较,本实施方式的医学信息搜索引擎系统还增加了数据合并模块90,对搜索模块80分别在分布式索引数据存储模块1和分布式索引数据存储模块2搜索的结果进行分组合并。
图11为本发明的医学信息搜索方法的第五、第六实施方式的流程图。
如图11所示,在本实施方式中,本发明的医学信息搜索方法包括:
S10:接收查询指令,对查询指令进行分词处理。
S20:基于医学语义词库存储模块对所述查询指令的分词结果进行分析,生成分词组合。
S30:计算所述分词组合中分词的加权值,在所述分词组合中添加所述加权值。
S50:基于数据库和分词组合生成分词索引,将分词索引存储至存储节点,扩展分布式索引数据存储模块。
S70:对所述分词组合在分布式索引数据存储模块中搜索匹配,得到搜索结果。
S90:得到在不同分布式索引数据存储模块进行搜索的搜索结果后,对搜索结果进行分组合并。
与第四实施方式的医学信息搜索方法相较,本实施方式的医学信息搜索方法增加了步骤S90。
第六实施方式:
本实施方式为第五实施方式的一种优选方案。
图6为本发明的医学信息搜索引擎系统的第六实施方式的模块示意图。
如图6所示,在本实施方式中,本发明的医学信息搜索引擎系统包括医学语义词库存储模块10、语义分析模块30、权重计算模块40、索引模块50、分布式索引数据存储模块70、搜索模块80和数据合并模块90。
与第五实施方式的医学信息搜索引擎系统相较,本实施方式的医学信息搜索引擎系统的语义分析模块30的数量为3个,分布在3个不同的服务器上,可同时分别对3个查询指令进行分析。权重计算模块40的数量为两个,分布在2个不同的服务器上,可分别对所述三个语义分析模块30生成的分词组合进行权重计算。权重计算模块1对应索引模块1,权重计算模块2对应索引模块2。需要说明的是,在本实施方式中,单个权重计算模块40同样可以设置为对应多个索引模块50,而并不局限于所述的一一对应设置方式。搜索模块80的数量为两个,分布在2个不同的服务器上,可分别对所述权重计算模块1和权重计算模块2的生成的分词组合进行搜索。搜索模块1对应分布式索引数据存储模块1,搜索模块2对应分布式索引数据存储模块2。需要说明的是,在本实施方式中,单个搜索模块80同样可以设置为对应多个分布式索引数据存储模块70,而并不局限于所述的一一对应设置方式。
图11为本发明的医学信息搜索方法的第五、第六实施方式的流程图。
如图11所示,在本实施方式中,本发明的医学信息搜索方法包括:
S10:接收查询指令,对查询指令进行分词处理。
S20:基于医学语义词库存储模块对所述查询指令的分词结果进行分析,生成分词组合。
S30:计算所述分词组合中分词的加权值,在所述分词组合中添加所述加权值。
S50:基于数据库和分词组合生成分词索引,将分词索引存储至存储节点,扩展分布式索引数据存储模块。
S70:对所述分词组合在分布式索引数据存储模块中搜索匹配,得到搜索结果。
S90:得到在不同分布式索引数据存储模块进行搜索的搜索结果后,对搜索结果进行分组合并。
与第五实施方式的医学信息搜索方法相较,本实施方式的医学信息搜索方法使用了多个分布在不同服务器上的语义分析模块、索引模块和搜索模块。
综上所述,本发明提供的医学信息搜索引擎系统和搜索方法通过设置包括医学领域同义词、近义词和关联词的医学语义词库存储模块精准地拓展了搜索的关键词,有效地提升了查全率的同时保持了查准率,基于不同数据库进行搜索后将搜索结果分类合并的设计,可以分类输出医学文献、药物、病例等不同类别的搜索结果。本发明生成分词索引的设计对索引进行读写分离,通过对搜索词建立子库,实现了索引库的横向分割,每个子索引库并行操作的可能性将大大减少。本发明显著地提升了搜索引擎在医学领域的搜索性能。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (22)
1.一种医学信息搜索引擎系统,其特征在于,包括:
医学语义词库存储模块,用于存储医学领域的同义词、近义词和关联词;
语义分析模块,用于接收查询指令,基于所述医学语义词库存储模块对所述查询指令进行分析,生成分词组合;
索引模块,用于基于数据库生成分词索引,将所述分词索引分布存储至存储节点,生成或扩展分布式索引数据存储模块所存储的数据;
分布式索引数据存储模块,用于存储所述分词索引;
搜索模块,用于对所述分词组合在所述分布式索引数据存储模块中搜索匹配,得到搜索结果。
2.根据权利要求1所述的医学信息搜索引擎系统,其特征在于,所述分词组合包括所述查询指令的分词,以及通过查询所述医学语义词库存储模块所获取的所述分词的同义词、近义词和/或关联词。
3.根据权利要求2所述的医学信息搜索引擎系统,其特征在于,所述分词组合还包括相关度数据;所述语义分析模块基于所述分词的同义词、近义词和/或关联词与所述分词的相关度分析得出所述相关度数据。
4.根据权利要求3所述的医学信息搜索引擎系统,其特征在于,所述医学信息搜索引擎系统还包括:
权重计算模块,用于计算所述分词的加权值,将添加所述加权值的分词组合发送至搜索模块进行搜索。
5.根据权利要求4所述的医学信息搜索引擎系统,其特征在于,所述权重计算模块通过所述相关度数据计算所述加权值。
6.根据权利要求1所述的医学信息搜索引擎系统,其特征在于,所述索引模块仅对预设定的分词生成所述分词索引和所述分布式索引数据存储模块时,所述存储节点数量设置为256。
7.根据权利要求1所述的医学信息搜索引擎系统,其特征在于,所述存储节点为映射到物理节点上的虚拟节点。
8.根据权利要求7所述的医学信息搜索引擎系统,其特征在于,所述索引模块对所述分词组合生成所述分词索引和所述分布式索引数据存储模块时,所述存储节点数量设置为4096。
9.根据权利要求8所述的医学信息搜索引擎系统,其特征在于,所述虚拟节点数量设置为4096时,所述虚拟节点所映射的物理节点数量为16,所述索引模块生成所述分词索引时采用异步子线程模式。
10.根据权利要求1所述的医学信息搜索引擎系统,其特征在于,所述医学信息搜索引擎系统基于不同数据库进行搜索,分别对应所述不同数据库的所述索引模块生成分别对应所述不同数据库的分布式索引数据存储模块。
11.根据权利要求10所述的医学信息搜索引擎系统,其特征在于,所述医学信息搜索引擎系统还包括:
数据合并模块,用于将分别对应所述不同分布式索引数据存储模块的所述搜索模块搜索得到的搜索结果进行分组合并。
12.根据权利要求1所述的医学信息搜索引擎系统,其特征在于,所述医学语义词库存储模块、所述语义分析模块、所述索引模块和所述搜索模块均分别部署多于一台的服务器。
13.一种医学信息搜索方法,其特征在于,包括:
接收查询指令,对查询指令进行分词处理;
基于医学语义词库存储模块对所述查询指令的分词结果进行分析,生成分词组合;
对所述分词组合在分布式索引数据存储模块中搜索匹配,得到搜索结果。
14.根据权利要求13所述的医学信息搜索方法,其特征在于,所述医学语义词库存储模块用于存储医学领域的同义词、近义词和关联词;所述分词组合包括所述分词结果中的分词,以及通过查询所述医学语义词库存储模块所获取的所述分词的同义词、近义词和/或关联词。
15.根据权利要求14所述的医学信息搜索方法,其特征在于,所述分词组合还包括相关度数据;基于所述分词的同义词、近义词和/或关联词与所述分词的相关度分析得出所述相关度数据。
16.根据权利要求15所述的医学信息搜索方法,其特征在于,所述“基于医学语义词库存储模块对所述查询指令的分词结果进行分析,生成分词组合”步骤还包括:计算所述分词组合中分词的加权值,在所述分词组合中添加所述加权值。
17.根据权利要求16所述的医学信息搜索方法,其特征在于,通过计算分析所述相关度数据得到所述加权值。
18.根据权利要求13所述的医学信息搜索方法,其特征在于,所述“基于医学语义词库存储模块对所述查询指令的分词结果进行分析,生成分词组合”步骤还包括:
基于数据库和所述分词组合生成分词索引,将所述分词索引分布存储至存储节点,生成或扩展分布式索引数据存储模块所存储的数据。
19.根据权利要求18所述的医学信息搜索方法,其特征在于,所述存储节点为映射到物理节点上的虚拟节点。
20.根据权利要求19所述的医学信息搜索方法,其特征在于,所述虚拟节点数量设置为4096,所述物理节点数量为16,生成所述分词索引时采用异步子线程模式。
21.根据权利要求18所述的医学信息搜索方法,其特征在于,所述“基于数据库和所述分词组合生成分词索引”步骤基于不同的数据库,对应的生成或扩展不同的分布式索引数据存储模块。
22.根据权利要求21所述的医学信息搜索方法,其特征在于,所述医学信息搜索方法还包括:
得到在所述不同的分布式索引数据存储模块进行搜索的搜索结果后,对所述搜索结果进行分组合并。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510015257.9A CN104537101A (zh) | 2015-01-12 | 2015-01-12 | 医学信息搜索引擎系统和搜索方法 |
PCT/CN2016/070599 WO2016112832A1 (zh) | 2015-01-12 | 2016-01-11 | 医学信息搜索引擎系统和搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510015257.9A CN104537101A (zh) | 2015-01-12 | 2015-01-12 | 医学信息搜索引擎系统和搜索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104537101A true CN104537101A (zh) | 2015-04-22 |
Family
ID=52852629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510015257.9A Pending CN104537101A (zh) | 2015-01-12 | 2015-01-12 | 医学信息搜索引擎系统和搜索方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN104537101A (zh) |
WO (1) | WO2016112832A1 (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105138829A (zh) * | 2015-08-13 | 2015-12-09 | 易保互联医疗信息科技(北京)有限公司 | 一种中文诊疗信息的自然语言处理方法及系统 |
CN105589972A (zh) * | 2016-01-08 | 2016-05-18 | 天津车之家科技有限公司 | 训练分类模型的方法及装置、对搜索词分类的方法及装置 |
WO2016112832A1 (zh) * | 2015-01-12 | 2016-07-21 | 杏树林信息技术(北京)有限公司 | 医学信息搜索引擎系统和搜索方法 |
CN106055540A (zh) * | 2016-06-01 | 2016-10-26 | 比美特医护在线(北京)科技有限公司 | 一种数据处理方法及装置 |
CN106156304A (zh) * | 2016-07-01 | 2016-11-23 | 中国南方电网有限责任公司 | 一种用于电力系统的数据检索和排序方法 |
CN106250708A (zh) * | 2016-08-16 | 2016-12-21 | 广州比特软件科技有限公司 | 一种在线咨询方法及系统 |
CN106503119A (zh) * | 2016-10-17 | 2017-03-15 | 广州薏生网络科技有限公司 | 一种移动问诊平台垂直搜索结果的排序方法 |
CN107066497A (zh) * | 2016-12-29 | 2017-08-18 | 努比亚技术有限公司 | 一种搜索方法和装置 |
CN107239517A (zh) * | 2017-05-23 | 2017-10-10 | 中国联合网络通信集团有限公司 | 基于Hbase数据库的多条件搜索方法及装置 |
CN108121815A (zh) * | 2017-12-28 | 2018-06-05 | 深圳开思时代科技有限公司 | 汽车配件查询方法、装置及系统、电子设备和介质 |
CN109213777A (zh) * | 2017-06-29 | 2019-01-15 | 杭州九阳小家电有限公司 | 一种基于语音的食谱处理方法及系统 |
CN110532272A (zh) * | 2019-08-30 | 2019-12-03 | 北京东软望海科技有限公司 | 数据查询方法、装置、电子设备及计算机可读存储介质 |
CN112988753A (zh) * | 2021-03-31 | 2021-06-18 | 建信金融科技有限责任公司 | 一种数据搜索方法和装置 |
CN114911917A (zh) * | 2022-07-13 | 2022-08-16 | 树根互联股份有限公司 | 资产元信息搜索方法、装置、计算机设备及可读存储介质 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299239B (zh) * | 2018-09-29 | 2021-11-23 | 福建弘扬软件股份有限公司 | 一种基于es的电子病历检索方法 |
CN111291153A (zh) * | 2018-12-10 | 2020-06-16 | 深圳坐标软件集团有限公司 | 一种信息搜索的方法和装置 |
CN110162522B (zh) * | 2019-05-22 | 2023-04-07 | 武汉市公安局 | 一种分布式数据搜索系统及方法 |
CN111597412B (zh) * | 2020-04-27 | 2023-08-22 | 必圈信息技术(湖北)有限公司 | 一种基于ElasticSearch实现多维度智能搜索相关数据的系统和方法 |
CN112749546B (zh) * | 2021-01-13 | 2023-01-17 | 叮当快药科技集团有限公司 | 医疗语义的检索匹配处理方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101149758A (zh) * | 2007-10-18 | 2008-03-26 | 中兴通讯股份有限公司 | 搜索系统及搜索方法 |
CN103902681A (zh) * | 2014-03-21 | 2014-07-02 | 百度在线网络技术(北京)有限公司 | 搜索推荐方法和装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102004036500A1 (de) * | 2004-07-28 | 2006-03-23 | Siemens Ag | Verfahren sowie Computerprogramm mit Programmcode-Mitteln und Computerprogramm-Produkt zur Bearbeitung einer elektronischen Suchanfrage unter Berücksichtigung eines semantischen Kontexts eines Suchbegriffs, Elektronische Suchmaschine zur Bearbeitung einer elektronischen Suchanfrage unter Berücksichtigung eines semantischen Kontexts eines Suchbegriffs |
US8180751B2 (en) * | 2008-07-01 | 2012-05-15 | Hewlett-Packard Development Company, L.P. | Using an encyclopedia to build user profiles |
CN101763574A (zh) * | 2009-06-03 | 2010-06-30 | 中国科学院自动化研究所 | 一种基于领域知识的古建筑保护技术信息管理系统及方法 |
CN103823799A (zh) * | 2012-11-16 | 2014-05-28 | 镇江诺尼基智能技术有限公司 | 新一代行业知识全文检索方法 |
CN104156415B (zh) * | 2014-07-31 | 2017-04-12 | 沈阳锐易特软件技术有限公司 | 解决医疗数据标准编码对照问题的映射处理系统及方法 |
CN104537101A (zh) * | 2015-01-12 | 2015-04-22 | 杏树林信息技术(北京)有限公司 | 医学信息搜索引擎系统和搜索方法 |
-
2015
- 2015-01-12 CN CN201510015257.9A patent/CN104537101A/zh active Pending
-
2016
- 2016-01-11 WO PCT/CN2016/070599 patent/WO2016112832A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101149758A (zh) * | 2007-10-18 | 2008-03-26 | 中兴通讯股份有限公司 | 搜索系统及搜索方法 |
CN103902681A (zh) * | 2014-03-21 | 2014-07-02 | 百度在线网络技术(北京)有限公司 | 搜索推荐方法和装置 |
Non-Patent Citations (2)
Title |
---|
BODO BILLERBECK ET AL.: ""Query Expansion using Associated Queries"", 《SCHOOL OF COMPUTER SCIENCE AND INFORMATION TECHNOLOGY》 * |
陶凤莉: ""基于关键词扩展的智能模糊查询算法的研究"", 《中国优秀硕士学位论文全文数据库•信息科技辑》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016112832A1 (zh) * | 2015-01-12 | 2016-07-21 | 杏树林信息技术(北京)有限公司 | 医学信息搜索引擎系统和搜索方法 |
CN105138829B (zh) * | 2015-08-13 | 2018-01-12 | 易保互联医疗信息科技(北京)有限公司 | 一种中文诊疗信息的自然语言处理方法及系统 |
CN105138829A (zh) * | 2015-08-13 | 2015-12-09 | 易保互联医疗信息科技(北京)有限公司 | 一种中文诊疗信息的自然语言处理方法及系统 |
CN105589972A (zh) * | 2016-01-08 | 2016-05-18 | 天津车之家科技有限公司 | 训练分类模型的方法及装置、对搜索词分类的方法及装置 |
CN105589972B (zh) * | 2016-01-08 | 2019-03-15 | 天津车之家科技有限公司 | 训练分类模型的方法及装置、对搜索词分类的方法及装置 |
CN106055540A (zh) * | 2016-06-01 | 2016-10-26 | 比美特医护在线(北京)科技有限公司 | 一种数据处理方法及装置 |
CN106156304A (zh) * | 2016-07-01 | 2016-11-23 | 中国南方电网有限责任公司 | 一种用于电力系统的数据检索和排序方法 |
CN106250708A (zh) * | 2016-08-16 | 2016-12-21 | 广州比特软件科技有限公司 | 一种在线咨询方法及系统 |
CN106503119A (zh) * | 2016-10-17 | 2017-03-15 | 广州薏生网络科技有限公司 | 一种移动问诊平台垂直搜索结果的排序方法 |
CN107066497A (zh) * | 2016-12-29 | 2017-08-18 | 努比亚技术有限公司 | 一种搜索方法和装置 |
CN107239517A (zh) * | 2017-05-23 | 2017-10-10 | 中国联合网络通信集团有限公司 | 基于Hbase数据库的多条件搜索方法及装置 |
CN107239517B (zh) * | 2017-05-23 | 2020-09-29 | 中国联合网络通信集团有限公司 | 基于Hbase数据库的多条件搜索方法及装置 |
CN109213777A (zh) * | 2017-06-29 | 2019-01-15 | 杭州九阳小家电有限公司 | 一种基于语音的食谱处理方法及系统 |
CN108121815A (zh) * | 2017-12-28 | 2018-06-05 | 深圳开思时代科技有限公司 | 汽车配件查询方法、装置及系统、电子设备和介质 |
CN110532272A (zh) * | 2019-08-30 | 2019-12-03 | 北京东软望海科技有限公司 | 数据查询方法、装置、电子设备及计算机可读存储介质 |
CN112988753A (zh) * | 2021-03-31 | 2021-06-18 | 建信金融科技有限责任公司 | 一种数据搜索方法和装置 |
CN112988753B (zh) * | 2021-03-31 | 2022-10-11 | 中国建设银行股份有限公司 | 一种数据搜索方法和装置 |
CN114911917A (zh) * | 2022-07-13 | 2022-08-16 | 树根互联股份有限公司 | 资产元信息搜索方法、装置、计算机设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2016112832A1 (zh) | 2016-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104537101A (zh) | 医学信息搜索引擎系统和搜索方法 | |
Gerber et al. | Bootstrapping the linked data web | |
US8533203B2 (en) | Identifying synonyms of entities using a document collection | |
CN102479191B (zh) | 提供多粒度分词结果的方法及其装置 | |
Aggarwal et al. | Towards graphical models for text processing | |
US8082270B2 (en) | Fuzzy search using progressive relaxation of search terms | |
JP5616444B2 (ja) | 文書インデックス化およびデータクエリングのための方法およびシステム | |
CN110147455B (zh) | 一种人脸匹配检索装置及方法 | |
CN103577418B (zh) | 海量文档分布式检索排重系统和方法 | |
US20160132565A1 (en) | Fuzzy Full Text Search | |
CN109885641B (zh) | 一种数据库中文全文检索的方法及系统 | |
KR101651780B1 (ko) | 빅 데이터 처리 기술을 이용한 연관 단어 추출 방법 및 그 시스템 | |
Alewiwi et al. | Efficient top-k similarity document search utilizing distributed file systems and cosine similarity | |
CN107229714B (zh) | 一种基于分布式数据库的全文搜索引擎 | |
EP2788897A1 (en) | Optimally ranked nearest neighbor fuzzy full text search | |
Khodaei et al. | Temporal-textual retrieval: Time and keyword search in web documents | |
Iacob et al. | Gpu accelerated information retrieval using bloom filters | |
US9965546B2 (en) | Fast substring fulltext search | |
JP2013222418A (ja) | パッセージ分割方法、装置、及びプログラム | |
DK178764B1 (en) | A computer-implemented method for carrying out a search without the use of signatures | |
Aumüller et al. | Recent Approaches and Trends in Approximate Nearest Neighbor Search, with Remarks on Benchmarking. | |
Lin et al. | Biological question answering with syntactic and semantic feature matching and an improved mean reciprocal ranking measurement | |
Wang et al. | A graph-based approach for semantic similar word retrieval | |
Kashyapi et al. | TREMA-UNH at TREC 2018: Complex Answer Retrieval and News Track. | |
Chauhan et al. | A parallel computational approach for similarity search using Bloom filters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150422 |