CN109376288B - 一种实现语义搜索的云计算平台及其均衡方法 - Google Patents
一种实现语义搜索的云计算平台及其均衡方法 Download PDFInfo
- Publication number
- CN109376288B CN109376288B CN201811135698.2A CN201811135698A CN109376288B CN 109376288 B CN109376288 B CN 109376288B CN 201811135698 A CN201811135698 A CN 201811135698A CN 109376288 B CN109376288 B CN 109376288B
- Authority
- CN
- China
- Prior art keywords
- index
- current
- similarity
- search information
- original document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供的一种实现语义搜索的云计算平台,包括:原始文档获取模块,用于获取原始文档;索引建立模块,用于根据原始文档建立对应的词向量,生成索引,基于索引可以确定对应的原始文档;搜索引擎模块,用于接收用户输入的搜索信息;词向量提取模块,用于提取搜索信息的词向量;词向量匹配模块,用于将搜索信息的词向量和原始文档的词向量进行匹配,确定与搜索信息对应的原始文档的目标索引,并根据目标索引确定目标原始文档;搜索信息反馈模块,用于将目标原始文档反馈至用户。本申请实施例的实现语义搜索的云计算平台及其均衡方法,搜索结果准确,能够有效解决实际问题,同时,加快了响应速度,提高了用户体验。
Description
技术领域
本申请涉及数据网络技术领域,尤其涉及一种实现语义搜索的云计算平台及其均衡方法。
背景技术
搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务的系统。
随着互联网的发展,通过互联网网络侧可以为客户端提供各种服务。其中一种就是搜索服务,也就是在网络侧设置搜索引擎,当网络侧的搜索引擎接收客户端发送的搜索请求后,检索互联网网络侧候选数据库中所存储的匹配该搜索请求携带的关键词的所有字面索引,提供给客户端。为了提高使用客户端的用户搜索体验度,提出了相关搜索技术,也就是网络侧的搜索引擎在接收搜索请求后,不仅仅检索互联网网络侧候选数据库中匹配该搜索请求携带的关键词的所有字面索引,还检索互联网网络侧候选数据库所存储的匹配该搜索请求携带的关键词的相关或相近字面索引,提供给客户端,用于用户的进一步搜索。
但是,现有技术中的云计算平台,在提供语义搜索服务时,往往会存在搜索结果噪声大、漏检的现象,导致搜索结果不准确,无法解决实际问题,同时,由于在提供语义搜索服务的过程中,搜索结果响应慢,严重影响了用户体验,不利于语义搜索技术的推广和发展。
发明内容
有鉴于此,本申请的目的在于提出一种实现语义搜索的云计算平台及其均衡方法,来解决现有技术中由于搜索结果噪声大、漏检导致搜索结果不准确,无法解决实际问题,同时搜索结果响应慢的技术问题。
基于上述目的,在本申请的一个方面,提出了一种实现语义搜索的云计算平台,包括:
原始文档获取模块,用于获取原始文档;
索引建立模块,用于根据所述原始文档建立对应的词向量,生成索引,基于所述索引可以确定对应的原始文档;
搜索引擎模块,用于接收用户输入的搜索信息;
词向量提取模块,用于提取所述搜索信息的词向量;
词向量匹配模块,用于将所述搜索信息的词向量和所述原始文档的词向量进行匹配,确定与所述搜索信息对应的原始文档的目标索引,并根据所述目标索引确定目标原始文档;
搜索信息反馈模块,用于将所述目标原始文档反馈至用户。
在一些实施例中,所述索引建立模块,包括:
切词单元,用于对所述原始文档进行切词,将所述原始文档切分为多个词组;
词组过滤单元;用于对所述多个词组进行过滤,删除所述多个词组中的停用词,确定实词组。
在一些实施例中,所述索引建立模块,还包括:
词频统计单元,用于统计所述实词组在所述原始文档中出现的频率;
词位置统计单元,用于统计所述实词组在所述原始文档中出现的位置;
词向量生成单元,用于根据所述实词组及其对应的频率和位置生成所述原始文档的词向量,并生成索引。
在一些实施例中,所述搜索引擎模块,包括:
搜索信息存储单元,用于对用户在预设时间段内用户输入的搜索信息进行关键词提取,并对提取到的关键词和用户输入的搜索信息进行存储。
在一些实施例中,所述搜索引擎模块,还包括:
搜索信息匹配单元,用于提取用户输入的当前搜索信息中的当前关键词,并将所述当前关键词与所述搜索信息存储单元中的关键词进行匹配,确定对应的历史搜索信息。
在一些实施例中,还包括:
索引存储模块,用于对所述索引建立模块生成的索引进行存储。
在一些实施例中,所述索引存储模块包括多个分布式存储单元,每个所述的分布式存储单元中存储有相似度满足预设阈值的多个索引。
在一些实施例中,所述索引存储模块,还包括:
索引分配单元,用于计算当前索引与多个分布式存储单元中的存储的索引之间的相似度,并根据相似度的预设阈值将所述当前索引分配到对应的分布式存储单元中。
基于上述目的,在本申请的另一个方面,提出了一种实现语义搜索的云计算平台的均衡方法,包括:
获取当前原始文档;
根据所述当前原始文档建立对应的词向量,生成当前索引,基于索引可以确定对应的原始文档;
计算所述当前索引与预先存储的多个索引块之间的相似度,其中,每个索引块包括多个索引,每个所述的索引块中的索引之间的相似度满足第一预设区间;
根据所述当前索引与预先存储的多个索引块之间的相似度将所述当前索引存储到对应的索引块中。
在一些实施例中,所述根据所述当前索引与预先存储的多个索引块之间的相似度将所述当前索引存储到对应的索引块中,包括:
判断所述当前索引与预先存储的多个索引块之间的相似度是否满足第一预设阈值区间;
判断所述当前索引与预先存储的多个索引块之间的相似度是否高于所述第一预设阈值区间的均衡值;
若所述相似度高于所述第一预设阈值区间的均衡值,将所述当前索引存储到索引块之间的相似度低于所述第一预设阈值区间的均衡值的索引块中;
若所述相似度低于所述第一预设阈值区间的均衡值,将所述当前索引存储到索引块之间的相似度高于所述第一预设阈值区间的均衡值的索引块中。
本申请实施例提供的一种实现语义搜索的云计算平台及其均衡方法,其中云计算平台包括:原始文档获取模块,用于获取原始文档;索引建立模块,用于根据所述原始文档建立对应的词向量,生成索引,基于所述索引可以确定对应的原始文档;搜索引擎模块,用于接收用户输入的搜索信息;词向量提取模块,用于提取所述搜索信息的词向量;词向量匹配模块,用于将所述搜索信息的词向量和所述原始文档的词向量进行匹配,确定与所述搜索信息对应的原始文档的目标索引,并根据所述目标索引确定目标原始文档;搜索信息反馈模块,用于将所述目标原始文档反馈至用户。本申请实施例的实现语义搜索的云计算平台及其均衡方法,搜索结果准确,能够有效解决实际问题,同时,加快了响应速度,提高了用户体验,有利于语义搜索技术的推广和发展。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请实施例一的实现语义搜索的云计算平台的结构示意图;
图2是本申请实施例二的实现语义搜索的云计算平台的索引建立模块的结构示意图;
图3是本申请实施例三的实现语义搜索的云计算平台的搜索引擎模块的结构示意图;
图4是本申请实施例四的实现语义搜索的云计算平台的索引存储模块的结构示意图;
图5是本申请实施例五的实现语义搜索的云计算平台的均衡方法的流程图;
图6是本申请实施例六的实现语义搜索的云计算平台的均衡方法的流程图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
如图1所示,是本申请实施例一的实现语义搜索的云计算平台的结构示意图。从图中可以看出,本实施例提供的实现语义搜索的云计算平台,包括:
原始文档获取模块101,用于获取原始文档。
在本实施例及后续实施例中,所述原始文档为供方企业提供的服务资源,所述原始文档的形式包括但不限于文本形式,例如还可以是带有图片的文本文档,或者是带有视频的文本文档,或者是同时带有图片和视频的文本文档。所述原始文档的内容可以是新闻资讯、科技论文、工具词典等等。当另外的企业或用户发布需求信息来搜索对应的服务资源时,就像查询电子词典一样,从语义上逐一锁定与其相关的语义词汇,然后再按照语义相似性和相关性的高低去检索云数据库,从而实现云制造服务资源语义搜索,最后根据匹配算法计算输入信息与各个搜索结果之间的综合匹配度,为用户提供决策支持,即将与用户输入的需求信息匹配的原始文档反馈给用户。在本实施例中,当供方企业发布服务资源(即原始文档)后,由所述原始文档获取模块101获取供方企业发布的原始文档。
索引建立模块102,用于根据所述原始文档建立对应的词向量,生成索引,基于所述索引可以确定对应的原始文档。
在本实施例中,当所述原始文档获取模块101获取到供方企业发布的原始文档后,所述原始文档获取模块101将获取到的原始文档转发至所述索引建立模块102,所述索引建立模块102根据所述原始文档建立对应的词向量,并生成索引,当用户发布需求信息来搜索对应的服务资源(原始文档)时,可以通过所述索引可以确定对应的原始文档,进而将所述原始文档反馈给用户。关于建立词向量以及生成索引的详细过程参见后续的实施例二,本实施例不作过多的说明。
搜索引擎模块103,用于接收用户输入的搜索信息。
在本实施例中,当用户发布需求信息来搜索对应的服务资源(原始文档)时,可以在所述搜索引擎模块103中输入与预获取的原始文档相关的语义词汇。例如,用户需要搜索与“如何调整电脑显示器的分辨率”相关的原始文档时,用户可以在所述搜索引擎模块103中输入对应的搜索信息,本实施例中的搜索信息可以是语义词汇,例如用户可以输入“调整分辨率”,或者用户也可以输入“调整、分辨率”等,这里只是示例性地对本实施例的技术方案进行说明,而不应当被理解为对本申请技术方案的限定。当用户输入搜索信息后,所述搜索引擎模块103接收用户输入的搜索信息,以根据所述搜索信息确定用户需要获取的目标原始文档。
词向量提取模块104,用于提取所述搜索信息的词向量。
在本实施例中,当所述搜索引擎模块103接收到用户输入的搜索信息后,将所述搜索信息发送至所述词向量提取模块104,所述词向量提取模块104提取用户输入的搜索信息的词向量,以便于根据所述词向量确定用户需要获取的目标原始文档。
词向量匹配模块105,用于将所述搜索信息的词向量和所述原始文档的词向量进行匹配,确定与所述搜索信息对应的原始文档的目标索引,并根据所述目标索引确定目标原始文档。
在所述词向量提取模块104提取到所述搜索信息的词向量后,将将所述搜索信息的词向量和所述索引建立模块102建立的所述原始文档的词向量进行匹配,并当匹配成功后,确定与所述搜索信息对应的原始文档的目标索引,并根据所述目标索引确定目标原始文档。例如,索引中可以包含有原始文档的页面链接,通过点击所述链接可以获取所述原始文档。
搜索信息反馈模块106,用于将所述目标原始文档反馈至用户。
在所述词向量匹配模块105确定了与所述搜索信息对应的原始文档的目标索引,并根据所述目标索引确定目标原始文档后,可以将所述目标原始文档发送反馈至用户,从而实现了语义搜索。
本申请实施例的实现语义搜索的云计算平台及其均衡方法,搜索结果准确,能够有效解决实际问题,同时,加快了响应速度,提高了用户体验,有利于语义搜索技术的推广和发展。
如图2所示,是本申请实施例二的实现语义搜索的云计算平台的索引建立模块的结构示意图。在本实施例中,所述云计算平台的索引建立模块102,可以包括:
切词单元1021,用于对所述原始文档进行切词,将所述原始文档切分为多个词组。
在本实施例中,所述原始文档通常为文本形式的文档,且文本文档的内容较多,例如原始文档可以是“知识库是语义搜索引擎进行推理和知识积累的基础和关键,而Ontology则是知识库的基础。一般来说,本体提供一组术语和概念来描述某个领域,知识库则使用这些术语来表达该领域的事实。例如医药本体可能包含“白血病”、“皮肤病”等术语的定义,但它不会包含具体某一病人的诊断结果,而这正是知识库所要表达的内容。比如张三患有皮肤病、李四患有皮肤病和白血病、王五患有白血病,其中的皮肤病、白血病就是本体。而各个病症的实例(张三、李四、王五)及其病症描述就是知识库的内容”。此外,还可以包括附图和/或视频等。以其中一句“知识库是语义搜索引擎进行推理和知识积累的基础和关键,而Ontology则是知识库的基础”为例,可以切词为“知识库/是/语义搜索引擎/进行/推理/和/知识积累/的/基础/和/关键,而/Ontology/则是/知识库/的/基础”。即将所述原始文档切分为多个词组。
词组过滤单元1022,用于对所述多个词组进行过滤,删除所述多个词组中的停用词,确定实词组。
在所述切词单元1021将所述原始文档切分为多个词组后,由所述词组过滤单元1022对所述的多个词组进行过滤,删除所述多个词组中的停用词,确定实词。仍以“知识库/是/语义搜索引擎/进行/推理/和/知识积累/的/基础/和/关键,而/Ontology/则是/知识库/的/基础”为例,所述词组过滤单元1022可以将切词后的原始文档过滤为“知识库/语义搜索引擎/推理/知识积累/基础/关键/Ontology/知识库/基础”。
词频统计单元1023,用于统计所述实词组在所述原始文档中出现的频率。
词位置统计单元1024,用于统计所述实词组在所述原始文档中出现的位置。
词向量生成单元1025,用于根据所述实词组及其对应的频率和位置生成所述原始文档的词向量,并生成索引。
仍以切词、过滤后的“知识库/语义搜索引擎/推理/知识积累/基础/关键/Ontology/知识库/基础”为例,其中“知识库”的出现频率为2次,“基础”的出现频率为2次,“知识库”的出现位置为原始文档的开头和结尾,“基础”的出现位置为原始文档的中间和结尾,则“知识库”对应的词向量为(知识库,2,开头和结尾),“基础”对应的词向量为(基础,2,中间和结尾),在生成词向量后,进而可以根据词向量生成对应的索引。
通过本实施例的索引建立模块102,可以根据原始文档生成词向量,进而生成原始文档的索引。
如图3所示,是本申请实施例三的实现语义搜索的云计算平台的搜索引擎模块的结构示意图。本实施例中的搜索引擎模块,可以包括:
搜索信息存储单元1031,用于对用户在预设时间段内用户输入的搜索信息进行关键词提取,并对提取到的关键词和用户输入的搜索信息进行存储。
当用户发布需求信息来搜索对应的服务资源时,用户会输入搜索信息,通常情况下,搜索信息为文本文档的搜索信息,当所示搜索信息存储单元1031接收到用户输入的搜索信息后,会提取所述搜索信息中的关键词,同时将提取到的关键词和用户输入的搜索信息进行存储
搜索信息匹配单元1032,用于提取用户输入的当前搜索信息中的当前关键词,并将所述当前关键词与所述搜索信息存储单元中的关键词进行匹配,确定对应的历史搜索信息。
此外,在用户输入的搜索信息后,所述搜索信息匹配单元1032可以将用户输入的当前搜索信息中的当前关键词与搜索信息存储单元1031中存储的用户输入的历史搜索信息的关键词进行匹配,并将关键词匹配成功的历史搜索信息作为当前的搜索信息。例如,用户输入的当前搜索信息为“色光”,则所述搜索信息匹配单元1032可以以“色光”为关键词与历史搜索信息中的关键词匹配,例如历史搜索信息“为色光的三原色”,历史搜索信息的关键词为“色光”,则可以当前关键词“色光”与历史搜索信息的关键词“色光”进行匹配,进而确定对应的历史搜索信息为为色光的三原色,并将历史搜索信息作为当前搜索信息。
如图4所示,是本申请实施例四的实现语义搜索的云计算平台的索引存储模块的结构示意图。作为本申请的一个实施例,在上述实施例的基础上,还可以包括索引存储模块107,所示索引存储模块107用于对所示索引建立模块102生成的索引进行存储。具体地,所述索引存储模块107包括多个分布式存储单元1072,如图所示的分布式存储单元1、分布式存储单元2……分布式存储单元n等,每个所述的分布式存储单元1072中存储有相似度满足预设阈值的多个索引。在本实施例中,每个所述的分布式存储单元1072中存储的多个索引相似度的预设阈值可以是一个阈值范围,例如40%到60%,索引间的相似度即为原始文档的相似度,具体地,每个原始文档对应有一个索引,每个索引可以包含有多个词向量,例如。索引可以为(知识库,2,开头和结尾)、(基础,2,中间和结尾)等词向量的集合,索引间的相似度可以是相同词向量占索引中全体次向量的百分比,则将相似度的取值范围为40%到60%的索引存储到同一分布式存储单元1072中。当有新的索引需要存储时,通过计算新索引与分布式存储单元1072中已有索引的相似度的平均值,作为新索引与分布式存储单元1072中索引的相似度,并将新索引存储在相似度的取值范围为40%到60%分布式存储单元1072中。
此外,所述索引存储模块107还包括索引分配单元,用于对计算当前索引与多个分布式存储单元中的存储的索引之间的相似度,并根据相似度的预设阈值将所述当前索引分配到对应的分布式存储单元中。关于相似度的计算,上文中已进行了说明,这里不再赘述。
本申请实施例能够取得与上述实施例相类似的计算效果,这里不再赘述。
如图5所示,是本申请实施例五的实现语义搜索的云计算平台的均衡方法的流程图。作为本申请的一个方法实施例,所述实现语义搜索的云计算平台的均衡方法,可以包括以下步骤:
S501:获取当前原始文档。
在本实施例中,当供方企业提供服务资源(即当前原始文档)后,获取所述当前原始文档。所述当前原始文档通常为文本形式的文档,此外,还可以图片或者视频,或者图片和视频。
S502:根据所述当前原始文档建立对应的词向量,生成当前索引,基于索引可以确定对应的原始文档。
在获取到当前原始文档后,根据所述当前原始文档建立对应的词向量,即对所述当前原始文档进行切词,将所述当前原始文档切分为多个词组,并对多个词组进行过滤,删除所述多个词组中的停用词,确定实词组,统计所述实词组在所述原始文档中出现的频率和所述实词组在所述原始文档中出现的位置;根据所述实词组及其对应的频率和位置生成所述原始文档的词向量,将多个词向量组合成当前原始文档对应的当前索引。关于词向量和索引的生成参见上述实施例,这里不再赘述。
S503:计算所述当前索引与预先存储的多个索引块之间的相似度,其中,每个索引块包括多个索引,每个所述的索引块中的索引之间的相似度满足第一预设区间。
在生成当前原始文档的当前索引后,计算所述当前索引与预先存储的多个索引块之间的相似度,本实施例中的索引块即为上述实施例中的分布式存储单元,计算当前索引与索引块之间的相似度的具体过程参见上述实施例,这里不再赘述。在本实施例中,每个所述的索引块中的索引之间的相似度满足第一预设区间,第一预设区间例如可以是40%到60%。
S504:根据所述当前索引与预先存储的多个索引块之间的相似度将所述当前索引存储到对应的索引块中。
在计算当前索引与索引块之间的相似度后,可以根据该相似度的值确定将所述当前索引存储到哪个索引块(分布式存储单元)中。例如,将所述当前索引存储到与所述当前索引的相似度的值在40%到60%之间的索引块中。
本申请实施例的实现语义搜索的云计算平台的均衡方法,搜索结果准确,能够有效解决实际问题,同时,加快了响应速度,提高了用户体验,有利于语义搜索技术的推广和发展。
如图6所示,是本申请实施例六的实现语义搜索的云计算平台的均衡方法的流程图。本实施例中的实现语义搜索的云计算平台的均衡方法,可以包括以下步骤:
S601:获取当前原始文档。
S602:根据所述当前原始文档建立对应的词向量,生成当前索引,基于索引可以确定对应的原始文档。
S603:计算所述当前索引与预先存储的多个索引块之间的相似度,其中,每个索引块包括多个索引,每个所述的索引块中的索引之间的相似度满足第一预设区间。
本实施例中的上述步骤与上述方法实施例相类似,这里不再赘述。
S604:判断所述当前索引与预先存储的多个索引块之间的相似度是否满足第一预设阈值区间。
在本实施例中,在计算当前索引与索引块之间的相似度后,可以判断所述当前索引与预先存储的多个索引块之间的相似度是否满足第一预设阈值区间,例如可以判断当前索引与预先存储的多个索引块之间的相似度是否在40%到60%的范围内。并将当前索引与预先存储的多个索引块之间的相似度在40%到60%的范围内的索引块作为备选索引块集。
S605:判断所述当前索引与预先存储的多个索引块之间的相似度是否高于所述第一预设阈值区间的均衡值。
在确定了备选索引块集后,进一步判断所述当前索引与备选索引块集中的多个索引块之间的相似度是否高于所述第一预设阈值区间的均衡值,例如第一预设阈值区间为40%到60%,则第一预设阈值区间的均衡值为50%,即判断所述当前索引与备选索引块集中的多个索引块之间的相似度是否高于50%。
S606:将所述当前索引存储到索引块之间的相似度低于所述第一预设阈值区间的均衡值的索引块中。
当所述当前索引与备选索引块集中的多个索引块之间的相似度高于50%时,将所述当前索引存储到索引块之间的相似度低于所述第一预设阈值区间的均衡值的索引块中。
S607:将所述当前索引存储到索引块之间的相似度高于所述第一预设阈值区间的均衡值的索引块中。
当所述当前索引与备选索引块集中的多个索引块之间的相似度不高于50%时,将所述当前索引存储到索引块之间的相似度高于所述第一预设阈值区间的均衡值的索引块中。
通过步骤S606和S607,可以将索引块中的索引间的相似度维持在40%到60%之间,一方面提高了语义搜索的效率,另一方面避免了存储索引块的分布式存储单元在同一时间被访问的次数过多而导致的过载。
本申请实施例的实现语义搜索的云计算平台的均衡方法,能够取得与上述实施例相类似的技术效果,这里不再赘述。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (3)
1.一种实现语义搜索的云计算平台,其特征在于,包括:
原始文档获取模块,用于获取原始文档;
索引建立模块,用于根据所述原始文档建立对应的词向量,生成索引,基于所述索引可以确定对应的原始文档;
搜索引擎模块,用于接收用户输入的搜索信息;
词向量提取模块,用于提取所述搜索信息的词向量;
词向量匹配模块,用于将所述搜索信息的词向量和所述原始文档的词向量进行匹配,确定与所述搜索信息对应的原始文档的目标索引,并根据所述目标索引确定目标原始文档;
搜索信息反馈模块,用于将所述目标原始文档反馈至用户;
所述索引建立模块,包括:
切词单元,用于对所述原始文档进行切词,将所述原始文档切分为多个词组;
词组过滤单元,用于对所述多个词组进行过滤,删除所述多个词组中的停用词,确定实词组;
所述索引建立模块,还包括:
词频统计单元,用于统计所述实词组在所述原始文档中出现的频率;
词位置统计单元,用于统计所述实词组在所述原始文档中出现的位置;
词向量生成单元,用于根据所述实词组及其对应的频率和位置生成所述原始文档的词向量,并生成索引;
所述搜索引擎模块,包括:
搜索信息存储单元,用于对用户在预设时间段内用户输入的搜索信息进行关键词提取,并对提取到的关键词和用户输入的搜索信息进行存储;
所述搜索引擎模块,还包括:
搜索信息匹配单元,用于提取用户输入的当前搜索信息中的当前关键词,并将所述当前关键词与所述搜索信息存储单元中的关键词进行匹配,确定对应的历史搜索信息;
其中,在用户输入的搜索信息后,所述搜索信息匹配单元将用户输入的当前搜索信息中的当前关键词与所述搜索信息存储单元中存储的用户输入的历史搜索信息的关键词进行匹配,并将关键词匹配成功的历史搜索信息作为当前的搜索信息;
还包括:
索引存储模块,用于对所述索引建立模块生成的索引进行存储;
所述索引存储模块包括多个分布式存储单元,每个所述的分布式存储单元中存储有相似度满足预设阈值的多个索引;其中,每个所述的分布式存储单元中存储的多个索引相似度的预设阈值是一个阈值范围,索引间的相似度为原始文档的相似度,每个原始文档对应有一个索引,每个索引包含有多个词向量,索引间的相似度是相同词向量占索引中全体词向量的百分比,将相似度的取值范围在阈值范围内的索引存储到同一分布式存储单元中,当有新的索引需要存储时,通过计算新索引与分布式存储单元中索引的相似度的平均值,作为新索引与分布式存储单元中索引的相似度,并将新索引存储在相似度的取值范围在阈值范围内的分布式存储单元中。
2.根据权利要求1所述的云计算平台,其特征在于,所述索引存储模块,还包括:
索引分配单元,用于计算当前索引与多个分布式存储单元中的存储的索引之间的相似度,并根据相似度的预设阈值将所述当前索引分配到对应的分布式存储单元中。
3.一种实现语义搜索的云计算平台的均衡方法,其特征在于,包括:
获取当前原始文档;
根据所述当前原始文档建立对应的词向量,生成当前索引,基于索引可以确定对应的原始文档;
其中,在获取到当前原始文档后,根据所述当前原始文档建立对应的词向量,即对所述当前原始文档进行切词,将所述当前原始文档切分为多个词组,并对多个词组进行过滤,删除所述多个词组中的停用词,确定实词组,统计所述实词组在所述原始文档中出现的频率和所述实词组在所述原始文档中出现的位置;根据所述实词组及其对应的频率和位置生成所述原始文档的词向量,将多个词向量组合成当前原始文档对应的当前索引;
计算所述当前索引与预先存储的多个索引块之间的相似度,其中,每个索引块包括多个索引,每个所述的索引块中的索引之间的相似度满足第一预设区间;
根据所述当前索引与预先存储的多个索引块之间的相似度将所述当前索引存储到对应的索引块中;
所述根据所述当前索引与预先存储的多个索引块之间的相似度将所述当前索引存储到对应的索引块中,包括:
判断所述当前索引与预先存储的多个索引块之间的相似度是否满足第一预设阈值区间;
判断所述当前索引与预先存储的多个索引块之间的相似度是否高于所述第一预设阈值区间的均衡值;
若所述相似度高于所述第一预设阈值区间的均衡值,将所述当前索引存储到索引块之间的相似度低于所述第一预设阈值区间的均衡值的索引块中;若所述相似度低于所述第一预设阈值区间的均衡值,将所述当前索引存储到索引块之间的相似度高于所述第一预设阈值区间的均衡值的索引块中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811135698.2A CN109376288B (zh) | 2018-09-28 | 2018-09-28 | 一种实现语义搜索的云计算平台及其均衡方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811135698.2A CN109376288B (zh) | 2018-09-28 | 2018-09-28 | 一种实现语义搜索的云计算平台及其均衡方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109376288A CN109376288A (zh) | 2019-02-22 |
CN109376288B true CN109376288B (zh) | 2021-04-23 |
Family
ID=65402184
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811135698.2A Active CN109376288B (zh) | 2018-09-28 | 2018-09-28 | 一种实现语义搜索的云计算平台及其均衡方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109376288B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110990685B (zh) * | 2019-10-12 | 2023-05-26 | 中国平安财产保险股份有限公司 | 基于声纹的语音搜索方法、设备、存储介质及装置 |
CN111177547A (zh) * | 2019-12-24 | 2020-05-19 | 绍兴市上虞区理工高等研究院 | 一种基于大数据的科技成果搜索方法及装置 |
CN112364889A (zh) * | 2020-10-20 | 2021-02-12 | 重庆大学 | 一种基于云平台的制造资源智能匹配系统 |
CN113361249B (zh) * | 2021-06-30 | 2023-11-17 | 北京百度网讯科技有限公司 | 文档判重方法、装置、电子设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020164A (zh) * | 2012-11-26 | 2013-04-03 | 华北电力大学 | 一种基于多语义分析和个性化排序的语义检索方法 |
CN103218373A (zh) * | 2012-01-20 | 2013-07-24 | 腾讯科技(深圳)有限公司 | 一种相关搜索系统、方法及装置 |
CN106021272A (zh) * | 2016-04-04 | 2016-10-12 | 上海大学 | 基于分布式表达词向量计算的关键词自动提取方法 |
WO2017076222A1 (zh) * | 2015-11-06 | 2017-05-11 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
CN106951411A (zh) * | 2017-03-24 | 2017-07-14 | 福州大学 | 一种云计算中保护数据隐私的快速多关键词语义排序搜索方法 |
CN108256539A (zh) * | 2016-12-28 | 2018-07-06 | 北京智能管家科技有限公司 | 基于语义匹配的人机交互方法、交互系统及智能故事机 |
-
2018
- 2018-09-28 CN CN201811135698.2A patent/CN109376288B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103218373A (zh) * | 2012-01-20 | 2013-07-24 | 腾讯科技(深圳)有限公司 | 一种相关搜索系统、方法及装置 |
CN103020164A (zh) * | 2012-11-26 | 2013-04-03 | 华北电力大学 | 一种基于多语义分析和个性化排序的语义检索方法 |
WO2017076222A1 (zh) * | 2015-11-06 | 2017-05-11 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
CN106021272A (zh) * | 2016-04-04 | 2016-10-12 | 上海大学 | 基于分布式表达词向量计算的关键词自动提取方法 |
CN108256539A (zh) * | 2016-12-28 | 2018-07-06 | 北京智能管家科技有限公司 | 基于语义匹配的人机交互方法、交互系统及智能故事机 |
CN106951411A (zh) * | 2017-03-24 | 2017-07-14 | 福州大学 | 一种云计算中保护数据隐私的快速多关键词语义排序搜索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109376288A (zh) | 2019-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109376288B (zh) | 一种实现语义搜索的云计算平台及其均衡方法 | |
CN111782965B (zh) | 意图推荐方法、装置、设备及存储介质 | |
US20210150204A1 (en) | Dynamic Document Clustering and Keyword Extraction | |
US9870405B2 (en) | System and method for evaluating results of a search query in a network environment | |
US20180336202A1 (en) | System and method to represent documents for search in a graph | |
US9495385B2 (en) | Mixed media reality recognition using multiple specialized indexes | |
US8385660B2 (en) | Mixed media reality indexing and retrieval for repeated content | |
US10783200B2 (en) | Systems and methods of de-duplicating similar news feed items | |
US20130283303A1 (en) | Apparatus and method for recommending content based on user's emotion | |
US20090080800A1 (en) | Multiple Index Mixed Media Reality Recognition Using Unequal Priority Indexes | |
CN107451208B (zh) | 一种数据搜索方法与装置 | |
US9201965B1 (en) | System and method for providing speech recognition using personal vocabulary in a network environment | |
US20200167613A1 (en) | Image analysis enhanced related item decision | |
CN111104511A (zh) | 一种提取热点话题的方法、装置及存储介质 | |
CN112256880A (zh) | 文本识别方法和装置、存储介质及电子设备 | |
US9721000B2 (en) | Generating and using a customized index | |
US11108717B1 (en) | Trends in a messaging platform | |
CN113297457A (zh) | 一种高精准性的信息资源智能推送系统及推送方法 | |
CN103942274A (zh) | 一种基于lda的生物医疗图像的标注系统及方法 | |
CN110413807A (zh) | 一种基于内容语义元数据的图像查询方法与系统 | |
US20120059786A1 (en) | Method and an apparatus for matching data network resources | |
CN112287218B (zh) | 一种基于知识图谱的非煤矿山文献关联推荐方法 | |
US20140136565A1 (en) | Similar contents searching apparatus based on user preference and similar contents searching method thereof | |
Bhakdisuparit et al. | Understanding and clustering hashtags according to their word distributions | |
US20190272297A1 (en) | Native object identification method and apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210408 Address after: 214000 10th floor, building B, swan block, Wuxi Software Park, 111 Linghu Avenue, Xinwu District, Wuxi City, Jiangsu Province Applicant after: Bangdao Technology Co., Ltd Address before: 100041 room 5564, building 3, 3 Xijing Road, Badachu hi tech park, Shijingshan District, Beijing Applicant before: BEIJING BEIDOU FANGYUAN ELECTRONIC TECHNOLOGY Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |