CN113886702A - 一种基于动态缓存机制的混合云搜索引擎及搜索方法 - Google Patents
一种基于动态缓存机制的混合云搜索引擎及搜索方法 Download PDFInfo
- Publication number
- CN113886702A CN113886702A CN202111202540.4A CN202111202540A CN113886702A CN 113886702 A CN113886702 A CN 113886702A CN 202111202540 A CN202111202540 A CN 202111202540A CN 113886702 A CN113886702 A CN 113886702A
- Authority
- CN
- China
- Prior art keywords
- search
- module
- local
- public cloud
- cloud
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000007246 mechanism Effects 0.000 title claims abstract description 23
- 150000001875 compounds Chemical class 0.000 claims description 43
- 238000001914 filtration Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 9
- 239000000872 buffer Substances 0.000 description 5
- 238000004140 cleaning Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000001819 mass spectrum Methods 0.000 description 1
- -1 molecular weight Chemical class 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 231100000200 toxicological information Toxicity 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9574—Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种基于动态缓存机制的混合云搜索引擎和搜索方法,搜索引擎包括:目标物搜索模块,用于接收搜索描述并将其转化为搜索标识,本地缓存模块和本地存储模块用于根据搜索标识在私有云上进行搜索,公共云缓存模块和公共云存储模块用于根据搜索标识在公有云上进行搜索;搜索方法是根据用户的搜索描述,搜索引擎先在本地缓存模块和本地存储模块上匹配是否有用户请求的信息,若没有匹配,则通过公共云缓存模块和公共云存储模块进行匹配,实现对常用搜索目标物进行高效返回。本申请通过采用混合云的缓存机制高效提高搜索效率,并缓解了存储压力,可广泛用于混合云的高效使用。
Description
技术领域
本申请涉及数据搜索技术,尤其是涉及一种基于动态缓存机制的混合云搜索引擎及搜索方法。
背景技术
互联网数据处理信息的增大,需求企业在硬件、软件和服务支持上做出更大的投资,传统方法是企业自建大型数据中心;然而云计算的提出,提供了一种代替企业自建数据中心的方法,企业可以选择在原有的设施基础上布置企业的关键数据、关键应用,在企业自有云环境中处理这些核心的,关键的信息,当企业自有云不足时候,在有计算需求时候,在考虑购买外部提供的云服务,这种既有企业自有云参与,又有租用外部云服务的方式,称他为混合云。
企业私有云可以作为固定资产,在企业私有云在有空闲的情况下,尽量将云计算限定在内部完成,只有在私有云条件不足时候,才会使用外部云服务,所以,这样的云组成如何实现价值最大化,成本最低化就是需要解决的问题,在现在所用的方法中主要是将混合云中的负载分为基本负载和进入负载,基本负载是处理私有数据所产生的负载,将一般的负载问题转化为一个超图分割问题进行求解;还有就是使用遗传算法对任务进行调度,通过定义成本函数实现最小代价的调度,这些方法着重于稳定性、灵活性和安全负载均衡实现,具有一定的优越性,但是在混合云中使用并不完全契合,很难实现混合云中的约束条件。
在实际应用中,由于私有云和公有云在不同的网络上,而且系统在访问文档前并不会自主选择访问速度与成本最优的下载数据的方式,所以如果公有云上存放着内网用户经常访问的数据,则内网用户访问这部分数据会消耗大量不必要的时间。由此,开发一种更加优化的存储方式便成为一个重要的需求,特别是数据存储量极大的现代企业。
发明内容
本申请要解决的技术问题是现有混合云技术中同时对私有云和公有云分开搜索,这样造成搜索效率低,另外由于搜索分开,所以无法做到系统优化,无法对搜索过的化合物进行有效的缓存以便下次搜索。
为解决上述技术问题,根据本申请的一个方面,提供一种基于动态缓存机制的混合云搜索引擎,包括:目标物搜索模块,用于接收用户输入的搜索描述并将搜索描述转化为系统识别的搜索标识;本地缓存模块,用于根据搜索标识在本地内存中提前自动搜索,获得本地缓存搜索结果并缓存;本地存储模块,用于根据搜索标识在本地存储中进行搜索,获得本地存储搜索结果并返回给本地缓存模块;公共云缓存模块,用于根据搜索标识在公共云内存中进行搜索,获得公共云缓存搜索结果并返回给本地缓存模块和本地存储模块;公共云存储模块,用于根据搜索标识在公共云存储中进行搜索,获得公共云存储搜索结果并返回给本地缓存模块、本地存储模块和公共云缓存模块。
其中,根据用户的搜索描述,本申请的搜索引擎先在本地缓存模块和本地存储模块上匹配是否有用户请求的信息,若没有匹配,则通过公共云缓存模块和公共云存储模块进行匹配,实现对常用搜索目标物进行高效返回。
根据本申请的实施例,公共云缓存搜索结果、公共云存储搜索结果都自动返回并保存至所述本地缓存模块和本地存储模块。
根据本申请的实施例,本地存储模块集成了基本数据库和支持搜索的功能,本地存储搜索结果返回并保存到本地缓存模块。
根据本申请的实施例,用户搜索描述可包括化合物的信息,化合物的信息包括化合物ID、化合物名称、化合物别名、化合物CAS号、化合物的分子式、化合物的结构、化合物的INCHI串、化合物的SMILES串、化合物的标签、化合物所属的分类以及化合物的属性组等。
根据本申请的实施例,本地缓存模块对于一些搜索频率低或者长时间未被搜索的目标物信息进行自动清理,以减少本地存储资源的消耗。
根据本申请的实施例,搜索标识的匹配处理可包括根据用户输入的搜索描述进行过滤和输入清洗,保证数据完整和符合后续模块的格式要求。
根据本申请的实施例,目标物搜索模块通过电脑端、移动端或API接口端接收用户输入的所述搜索描述。
根据本申请的实施例,公共云可包括IBM Cloud、Amazon Web Services和Microsoft Azure,私有云可包括IBM Cloud Private和标准Kubernetes。
根据本申请的实施例,公共云存储模块可包括公共云数据接口以及相应商业云数据的通用接口。
根据本申请的另一方面,提供一种基于动态缓存机制的混合云搜索方法,该搜索方法采用了上述的混合云搜索引擎,该搜索方法包括以下步骤:
1)用户端输入搜索描述,与用户端通过接口相连接的目标物搜索模块将接收到的搜索描述转化成系统认识的搜索标识;
2)根据搜索标识,本地缓存模块在本地内存中搜索相关信息并直接将本地缓存模块搜索结果通过目标物搜索模块直接返回给用户端;
3)如果本地缓存模块没有搜索到相关信息,本地存储模块根据搜索标识在本地存储中搜索相关信息,并将本地存储搜索结果通过目标物搜索模块直接返回给用户端,同时将本地存储搜索结果返回并保存至本地缓存模块;
4)如果在本地缓存模块和本地搜索模块都没有搜索到相关信息,公共云缓存模块自动根据搜索标识在公共云内存中搜索相关信息,并将公共云缓存搜素结果通过目标物搜索模块直接返回给用户端,同时,公共云缓存搜素结果返回并保存到本地缓存模块和本地存储模块;
5)如果公共云缓存模块没有搜索到相关信息,公共云存储模块根据所述搜索标识在公共云存储中搜索相关信息,公共云存储搜索结果通过目标搜索模块直接返回给用户端,同时,公共云存储搜索结果返回并保存至公共云缓存模块、本地缓存模块和本地存储模块中。
与现有技术相比,本申请具备以下有益效果:
1.将私有云的部分高速存储介质容量作为混合云存储的缓存模块,可以使用私有云的高速存储介质作为混合云机制的缓存,扩大了缓存容量,提高了用户访问数据的效率。
2.热门的目标物会在一段时间内被用户多次搜索和点击查看。针对这种情况,本发明的搜索引擎系统进一步包括本地缓存模块。该模块暂存搜索引擎统计特定时间内的用户搜索数据从而确定一部分热门的被搜索内容,并且从内容供应商的内容服务器上下载和暂存热门的被搜索内容。目标物搜索模块接收到热门搜索内容时,直接向用户返回本地缓存模块中的内容供用户在线查看,从而使用户可以更快速和准确地获得所需内容,进一步缓解了搜索引擎的压力。
3.在私有云中开辟一个数据缓存区,存放公有云上的常用数据,并依据数据热度的变化对缓存区数据进行实时动态的更新,加快内网用户访问原先公有云上常用数据的速度,降低了公有云上常用数据丢失的风险,同时减少带宽和流量的访问成本,以使用户快递高效的访问下载公有云中的常用数据。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例的附图作简单地介绍,显而易见地,下面描述中的附图仅仅涉及本申请的一些实施例,而非对本申请的限制。
图1为本发明实施例的基于动态缓存机制的混合云搜索引擎的组成结构图;
图2为本发明实施例的基于动态缓存机制的混合云搜索方法的流程图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例的附图,对本申请实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于所描述的本申请的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其它实施例,都属于本申请保护的范围。
除非另作定义,此处使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“一个”或者“一”等类似词语也不表示数量限制,而是表示存在至少一个。
所谓搜索引擎,就是根据用户需求与一定算法,运用特定策略从互联网检索出制定信息反馈给用户的一门检索技术。搜索引擎依托于多种技术,如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等,为信息检索用户提供快速、高相关性的信息服务。搜索引擎技术的核心模块一般包括爬虫、索引、检索和排序等,同时可添加其他一系列辅助模块,以为用户创造更好的网络使用环境。
数据缓存机制:缓存的工作原理是当引擎需要搜索一个数据时,首先从“缓存模块”中查找,找到就立即读取并送给搜索方;没有找到,就从速率相对较慢的后端数据库中读取并送给搜索方,同时把这个数据所在的数据块调入“缓存模块”中,可以使得以后对整块数据的读取都从缓存中进行,不必再调用内存。动态缓存根据数据搜索特性、命中率和数据相干性对数据进行缓存优化,从而提高缓存数据命中率,最终提高搜索方查询效率。
为了解决用户越来越将搜索引擎当作是信息获取的工具但现有技术中在搜索效率低下的问题,本发明提出了一种基于动态缓存机制的混合云搜索引擎和搜索方法,具体地,下面参考附图描述本发明实施例的基于动态缓存机制的混合云搜索引擎和搜索方法。
图1是根据本发明一个实施例的基于动态缓存机制的混合云搜索引擎的组成结构图。如图1所示,该基于动态缓存机制的混合云搜索引擎包括:
目标物搜索模块,用于接收用户端输入的搜索请求并将搜索请求进行匹配处理转化成系统可以识别的搜索标识,也可以接收搜索引擎的搜索结果将其返回给用户端。
进一步地,用户端可以是PC(Personal Computer,个人计算机)机、移动终端以及其他应用程序接口,用以显示搜索引擎返回的搜索结果。移动终端可以是手机、平板电脑等具有各种操作系统的硬件设备。
进一步地,对用户端输入的搜索请求进行匹配处理,可以根据搜索请求的数据进行过滤和输入清洗,保证数据完整和符合后续模块的格式要求。过滤用于过滤掉无法与搜索系统相匹配的部分,输入清洗用于没有与搜索系统相匹配的部分时则反馈搜索无结果。
进一步,搜索标识可分为文字精确搜索标识、文字模糊搜索标识以及结构的搜索权重标识,例如,用户输入的搜索请求是化合物CAS号或化合物名称,则目标物搜索模块将其转化为系统对应的文字精确搜索标识;当用户输入的搜素请求为化合物名称的模糊搜索,则目标物搜索模块将其转化为系统对应的模糊搜索标识;用户输入的搜索请求是化合物结构搜索,系统首先转换该结构信息为系统可识别结构式,再通过该结构计算出相应的搜索权重标识。
本地缓存模块,用以根据搜索标识在本地内存中搜索并获得本地缓存搜索结果,本地缓存模块还可以保存本地缓存搜索结果并将其发送给用户端。
进一步地,本地缓存模块支持本地存储,但数据大部分存在于本地内存之中,本地内存中的数据主要为用户之前搜索过的数据以及系统根据目标物的相关性提前自动搜索的结果。本地缓存模块还同时支持本地数据库的缓存和公共数据库的数据缓存。由此,本地缓存模块具有私有云的预设高速存储介质容量。本实施例中,本地缓存模块也具备自动清理功能,以节省有限的高速存储介质资源,保证有限的高速存储介质资源利用率。对于一些搜索频率较低的或者长时间未被搜索的目标物信息进行清理,以减少本地存储容量的消耗。如可以根据用户搜索目标物的命中率智能清理本地缓存模块中缓存信息。具体设计一个搜索频率检测服务器,在预设时间间隔检测目标物搜索频率,对于搜索频率低或设定的时间间隔内无搜索的目标物的相关信息进行自动清理。
进一步地,对于本地缓存模块的存储介质的具体选择,可以由设计人员自行设置,本实施例对此不受限制。
本地存储模块,包括本地存储库。目前主流的数据库分为关系型数据库和非关系型数据库,本地存储库可为关系型或者非关系型数据库,用于保存本地信息。本地存储模块用于根据搜索标识在本地存储库进行搜索并获得本地存储搜索结果。
进一步地,本地存储模块还支持多目标物的模糊搜索和精确搜索。例如,搜索标识为文字精确搜索,则本地存储模块在本地存储中进行精确搜索;当搜索标识为系统对应的模糊搜索标识时,则本地存储模块在本地存储中进行模糊搜索。本地存储模块的搜索结果会返回并保存至本地缓存模块。
公共云缓存模块,用于根据搜索标识在公共云内存中进行搜索并获得公共云缓存搜索结果,公共云缓存搜索结果还会返回并保存至本地缓存模块和本地存储模块。
进一步地,公共云缓存模块可识别文字精确搜索标识、文字模糊搜索标识和结构搜索权重标识,搜索到相关数据可直接返回给用户端。
进一步地,公共云缓存模块支持对于商业云数据的远程调用,并对返回的数据进行格式化处理。
公共云存储模块,用于根据搜索标识在公共云存储中进行搜索并获得公共云存储搜索结果,公共云存储搜索结果还会返回并保存至本地缓存模块和本地存储模块。
进一步地,公共云存储模块包含公共云数据接口以及相应商业云数据通用接口。商业数据库1,商业数据库2,商业数据库3…都可以通过统一的API接口与公共云存储模块连接。
参考图2,图2为本发明实施例提供的一种基于云缓存机制的混合云搜索方法,该方法采用了上述实施例所述的搜索引擎,该方法具体步骤可包括:
1)用户端输入搜索描述,与用户端通过接口相连接的目标物搜索模块将接收到的搜索描述转化成系统认识的搜索标识;
2)根据搜索标识,本地缓存模块在本地内存中搜索相关信息并直接将本地缓存模块搜索结果通过目标物搜索模块直接返回给用户端;
3)如果本地缓存模块没有搜索到相关信息,本地存储模块根据搜索标识在本地存储中搜索相关信息,并将本地存储搜索结果通过目标物搜索模块直接返回给用户端,同时将本地存储搜索结果返回并保存至本地缓存模块;
4)如果在本地缓存模块和本地搜索模块都没有搜索到相关信息,公共云缓存模块自动根据搜索标识在公共云内存中搜索相关信息,并将公共云缓存搜素结果通过目标物搜索模块直接返回给用户端,同时,公共云缓存搜素结果返回并保存到本地缓存模块和本地存储模块;
5)如果公共云缓存模块没有搜索到相关信息,公共云存储模块根据所述搜索标识在公共云存储中搜索相关信息,公共云存储搜索结果通过目标搜索模块直接返回给用户端,同时,公共云存储搜索结果返回并保存至公共云缓存模块、本地缓存模块和本地存储模块中。
进一步地,本发明实施例中阐述的基于云缓存机制的混合云搜索方法还包括本地缓存模块的自动清理步骤,定时清除搜索频率低或无搜索频率的相关信息,保障本地缓存的储存容量。
本实施例中,具体阐述以下采用基于动态缓存机制的混合云搜索引擎进行化合物搜索的搜索方法:
1.用户端输入化合物的CAS号码或化合物的标准名中英文名称或化合物的结构式或化合物的中英文别名等,并且可以选择是精确搜索或模糊搜索。目标物搜索模块根据用户的搜索条件,转化成系统可以辨识的搜索标识:如果是CAS号搜索,即为简单的文字精确搜索标识;如果是化合物名称搜索,可选择精确搜索或模糊搜索,相应地,系统将化合物名称搜索转化为简单的文字精确搜索标识或对应的模糊搜索标识;如果是化合物结构搜索,目标物搜索模块首先转换该结构信息为系统可识别结构式,再通过该结构计算出相应的搜索权重标识;
2.本地缓存模块通过上述得到的上述搜索标识,在本地缓存系统中进行搜索:如在本地缓存即本地内存中搜索到相关数据,则搜索结果直接由目标物搜索模块接受然后返回给前端的用户端,并且保存该搜索结果更新缓存机制;如在本地缓存系统没搜索到相关数据,系统从本地存储数据即本地分存储中搜索到相关数据,本地存储的搜索结果有目标物搜索模块接收并直接返回给前端的用户端,并且把该本地存储的搜索结果传输给本地缓存模块,增加本地缓存即本地内存的内容;
3.如在本地缓存模块和本地存储模块都没有搜索到与化合物相匹配的数据,系统自动通过连接到混合云中的公共云进行搜索:根据目标物搜索模块的搜索标识,系统首先在公共云缓存即公共云内存中搜索相关数据,公共云缓存搜索结果由目标物搜索模块接收并直接返回给前端用户,并且保存该搜索结果以更新公共云缓存机制,同时把公共云缓存搜索结果输送给本地缓存模块和本地存储模块,将公共云缓存内容保存在本地存储中;
4.如按照步骤2和步骤3的操作都没有没搜索到相关数据,系统将自动从公共云存储中搜索到相关数据,公共云存储搜索结果由目标物搜索模块接收并直接返回给前端的用户端,并且把公共云存储搜索结果送至公共云缓存模块,同时也将公共云存储搜索结果输送至本地缓存模块和本地存储模块,即此,搜索过程结束。
上述的搜索引擎根据客户端输入的化合物搜索请求,系统进行精确搜索或模糊搜索后,系统会返回相关的搜索结果,结果中可包括该化合物基本信息如分子量、分子式、结构式、名称、CAS号、密度等,根据化合物还可以进一步获得该化合物的更多信息,比如图谱/质谱信息、毒理信息、化学品属性、生物测试数据、合成路线等。
综上所述,本发明具有以下有益效果:
1.将私有云的部分高速存储介质容量作为混合云存储的缓存模块,可以使用私有云的高速存储介质作为混合云机制的缓存,扩大了缓存容量,提高了用户访问数据的效率。
2.热门的目标物会在一段时间内被用户多次搜索和点击查看。针对这种情况,本发明的搜索引擎系统进一步包括本地缓存模块。该模块暂存搜索引擎统计特定时间内的用户搜索数据从而确定一部分热门的被搜索内容,并且从内容供应商的内容服务器上下载和暂存热门的被搜索内容。目标物搜索模块接收到热门搜索内容时,直接向用户返回本地缓存模块中的内容供用户在线查看,从而使用户可以更快速和准确地获得所需内容,进一步缓解了搜索引擎的压力。
3.在私有云中开辟一个数据缓存区,存放公有云上的常用数据,并依据数据热度的变化对缓存区数据进行实时动态的更新,加快内网用户访问原先公有云上常用数据的速度,降低了公有云上常用数据丢失的风险,同时减少带宽和流量的访问成本,以使用户快递高效的访问下载公有云中的常用数据。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以上所述仅是本申请的示范性实施方式,而非用于限制本申请的保护范围,本申请的保护范围由所附的权利要求确定。
Claims (10)
1.一种基于动态缓存机制的混合云搜索引擎,其特征在于,包括:
目标物搜索模块,用于接收用户输入的搜索描述并将所述搜索描述转化为系统识别的搜索标识;
本地缓存模块,用于根据所述搜索标识在本地内存中提前自动搜索,获得本地缓存搜索结果并缓存;
本地存储模块,用于根据所述搜索标识在本地存储中进行搜索,获得本地存储搜索结果并返回给所述本地缓存模块;
公共云缓存模块,用于根据所述搜索标识在公共云内存中进行搜索,获得公共云缓存搜索结果并返回给所述本地缓存模块和本地存储模块;
公共云存储模块,用于根据所述搜索标识在公共云存储中进行搜索,获得公共云存储搜索结果并返回给所述本地缓存模块、本地存储模块和公共云缓存模块;
其中,根据用户的搜索描述,所述搜索引擎先在所述本地缓存模块和本地存储模块上匹配是否有用户请求的信息,若没有匹配,则通过所述公共云缓存模块和公共云存储模块进行匹配,实现对常用搜索目标物进行高效返回。
2.根据权利要求1所述的混合云搜索引擎,其特征在于,所述公共云缓存搜索结果集、公共云存储搜索结果集都自动返回并保存至所述本地缓存模块和本地存储模块。
3.根据权利要求1所述的混合云搜索引擎,其特征在于,所述本地存储模块集成了基本数据库和支持搜索的功能,所述本地存储搜索结果返回并保存到所述本地缓存模块。
4.根据权利要求1所述的混合云搜索引擎,其特征在于,所述用户搜索描述包括化合物的信息,所述化合物的信息包括化合物ID、化合物名称、化合物别名、化合物CAS号、化合物的分子式、化合物的结构、化合物的INCHI串、化合物的SMILES串、化合物的标签、化合物所属的分类以及化合物的属性组。
5.根据权利要求1所述的混合云搜索引擎,其特征在于,所述本地缓存模块对于一些搜索频率低的或者长时间未被搜索的目标物信息进行自动清理,以减少本地存储资源的消耗。
6.根据权利要求1所述的混合云搜索引擎,其特征在于,所述搜索标识的匹配处理包括根据用户输入的所述搜索描述进行过滤和输入清洗,保证数据完整和符合后续模块的格式要求。
7.根据权利要求1所述的混合云搜索引擎,其特征在于,所述目标物搜索模块通过电脑端、移动端或API接口端接收用户输入的所述搜索描述。
8.根据权利要求1所述的混合云搜索引擎,其特征在于,所述公共云包括IBM Cloud、Amazon Web Services和Microsoft Azure,所述私有云包括IBM Cloud Private和标准Kubernetes。
9.根据权利要求1所述的混合云搜索引擎,其特征在于,所述公共云存储模块包括公共云数据以及相应商业云数据通用接口。
10.一种基于动态缓存机制的搜索方法,其特征在于,所述搜索方法采用了如权利要求1-9所述的混合云搜索引擎,所述搜索方法包括以下步骤:
1)用户端输入搜索描述,与所述用户端通过接口相连接的所述目标物搜索模块将接收到的所述搜索描述转化成系统认识的搜索标识;
2)根据所述搜索标识,首先所述本地缓存模块在本地内存中搜索相关信息,本地缓存模块搜索结果缓存并返回给所述用户端;
3)如果所述本地缓存模块没有搜索到相关信息,所述本地存储模块根据所述搜索标识在本地存储中搜索相关信息,并将本地存储搜索结果直接返回给所述用户端,同时将所述本地存储搜索结果返回并保存至所述本地缓存模块;
4)如果步骤2)和步骤3)都没有搜索到相关信息,所述公共云缓存模块根据所述搜索标识在公共云内存中搜索相关信息,并将公共云缓存搜素结果直接返回给所述用户端,同时,所述公共云缓存搜素结果返回并保存到所述本地缓存模块和本地存储模块;
5)如果所述公共云缓存模块没有搜索到相关信息,所述公共云存储模块根据所述搜索标识在公共云存储中搜索相关信息,所述公共云存储搜索结果直接返回给所述用户端,同时,所述公共云存储搜索结果返回并保存至所述公共云缓存模块、本地缓存模块和本地存储模块中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111202540.4A CN113886702B (zh) | 2021-10-15 | 2021-10-15 | 一种基于动态缓存机制的混合云搜索引擎及搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111202540.4A CN113886702B (zh) | 2021-10-15 | 2021-10-15 | 一种基于动态缓存机制的混合云搜索引擎及搜索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113886702A true CN113886702A (zh) | 2022-01-04 |
CN113886702B CN113886702B (zh) | 2024-11-26 |
Family
ID=79003052
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111202540.4A Active CN113886702B (zh) | 2021-10-15 | 2021-10-15 | 一种基于动态缓存机制的混合云搜索引擎及搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113886702B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170208052A1 (en) * | 2016-01-19 | 2017-07-20 | Hope Bay Technologies, Inc | Hybrid cloud file system and cloud based storage system having such file system therein |
US20200136825A1 (en) * | 2018-10-31 | 2020-04-30 | Nutanix, Inc. | Systems and methods for pairing on-premise clusters to clouds using identity service providers |
CN111339421A (zh) * | 2020-02-28 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 基于云技术的信息搜索的方法、装置、设备及存储介质 |
CN111475728A (zh) * | 2020-04-07 | 2020-07-31 | 腾讯云计算(北京)有限责任公司 | 云资源信息搜索方法、装置、设备及存储介质 |
CN112929415A (zh) * | 2021-01-22 | 2021-06-08 | 中科三清科技有限公司 | 基于混合云的气象数据管理系统及管理方法 |
CN113889199A (zh) * | 2021-10-15 | 2022-01-04 | 蔚泓智能信息科技(上海)有限公司 | 一种基于化合物的搜索引擎和搜索方法 |
-
2021
- 2021-10-15 CN CN202111202540.4A patent/CN113886702B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170208052A1 (en) * | 2016-01-19 | 2017-07-20 | Hope Bay Technologies, Inc | Hybrid cloud file system and cloud based storage system having such file system therein |
US20200136825A1 (en) * | 2018-10-31 | 2020-04-30 | Nutanix, Inc. | Systems and methods for pairing on-premise clusters to clouds using identity service providers |
CN111339421A (zh) * | 2020-02-28 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 基于云技术的信息搜索的方法、装置、设备及存储介质 |
CN111475728A (zh) * | 2020-04-07 | 2020-07-31 | 腾讯云计算(北京)有限责任公司 | 云资源信息搜索方法、装置、设备及存储介质 |
CN112929415A (zh) * | 2021-01-22 | 2021-06-08 | 中科三清科技有限公司 | 基于混合云的气象数据管理系统及管理方法 |
CN113889199A (zh) * | 2021-10-15 | 2022-01-04 | 蔚泓智能信息科技(上海)有限公司 | 一种基于化合物的搜索引擎和搜索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113886702B (zh) | 2024-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2398272C2 (ru) | Способ и система для индексирования и поиска в базах данных | |
CA2420382C (en) | A method for searching and analysing information in data networks | |
US5933832A (en) | Retrieval system for frequently updated data distributed on network | |
US7865476B2 (en) | File sharing system in cooperation with a search engine | |
US7672935B2 (en) | Automatic index creation based on unindexed search evaluation | |
US20080140606A1 (en) | Searching Descendant Pages for Persistent Keywords | |
CN109947796B (zh) | 一种分布式数据库系统查询中间结果集的缓存方法 | |
WO2007134130A2 (en) | Systems and methods for generating statistics from search engine query logs | |
CN101178728A (zh) | 一种网址导航的方法和系统 | |
CN101211365A (zh) | 用于建立搜索索引的方法和系统 | |
US11709831B2 (en) | Cost-based query optimization for array fields in database systems | |
CN106294695A (zh) | 一种面向实时大数据搜索引擎的实现方法 | |
CN104424258A (zh) | 多维数据查询的方法、查询服务器、列存储服务器及系统 | |
CN109710767B (zh) | 多语种大数据服务平台 | |
US20140032568A1 (en) | System and Method for Indexing Streams Containing Unstructured Text Data | |
US8965879B2 (en) | Unique join data caching method | |
CN102156749B (zh) | 一种地图网站的自动搜索判别方法、系统及其分布式服务器系统 | |
Bhushan et al. | Recommendation of optimized web pages to users using Web Log mining techniques | |
CN103020300B (zh) | 一种信息检索方法和设备 | |
US20100138423A1 (en) | Content discovery using gateway browsing data | |
US20040205049A1 (en) | Methods and apparatus for user-centered web crawling | |
CN117851396A (zh) | 一种基于湖仓一体的数据编目方法及系统 | |
CN113889199A (zh) | 一种基于化合物的搜索引擎和搜索方法 | |
CN113886702A (zh) | 一种基于动态缓存机制的混合云搜索引擎及搜索方法 | |
CN109190010A (zh) | 基于自定义的关键词采集方式进行互联网数据采集系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |