CN111597412A - 一种基于ElasticSearch实现多维度智能搜索相关数据的系统和方法 - Google Patents

一种基于ElasticSearch实现多维度智能搜索相关数据的系统和方法 Download PDF

Info

Publication number
CN111597412A
CN111597412A CN202010344863.6A CN202010344863A CN111597412A CN 111597412 A CN111597412 A CN 111597412A CN 202010344863 A CN202010344863 A CN 202010344863A CN 111597412 A CN111597412 A CN 111597412A
Authority
CN
China
Prior art keywords
word
search
root
words
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010344863.6A
Other languages
English (en)
Other versions
CN111597412B (zh
Inventor
刘冬
孙克岗
杨荣凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Biquan Information Technology Hubei Co ltd
Original Assignee
Biquan Information Technology Hubei Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Biquan Information Technology Hubei Co ltd filed Critical Biquan Information Technology Hubei Co ltd
Priority to CN202010344863.6A priority Critical patent/CN111597412B/zh
Publication of CN111597412A publication Critical patent/CN111597412A/zh
Application granted granted Critical
Publication of CN111597412B publication Critical patent/CN111597412B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于ElasticSearch实现多维度智能搜索相关数据的系统,包括词根模块、维度管理模块、词关系管理模块、权重配置模块、智能联想模块五个模块;本发明还公开了一种基于ElasticSearch实现多维度智能搜索相关数据系统的方法,通过在海量数据中根据搜索维度和搜索条件,来搜索精准度和相似度最高的数据资源,解决了不同维度不同行业中对于同一种检索词的不同数据响应,在大数据环境中根据需要的检索维度提高检索的准确度;以ElasticSearch的算分公式为基础,使用指定维度获取相关关系词,增加各维度各关系的计分权重,通过不同维度不同关系词的计分权重的规则,可将热点数据或特殊数据优先命中,提高被搜索的几率和数据精准度,节约了使用者的信息获取时间。

Description

一种基于ElasticSearch实现多维度智能搜索相关数据的系 统和方法
技术领域
本发明涉及智能搜索技术领域,具体来说,涉及一种基于ElasticSearch实现多维度智能搜索相关数据的系统和方法。
背景技术
在企业大数据搜索领域中,通常会使用ElasticSearch作为搜索引擎(ElasticSearch是一个基于Lucene的搜索服务器,简称ES)。在迅速发展的企业或组织中,数据资产会越来越多,有价值的数据也会倍增。
由于数据具有多样性,搜索引擎会根据用户需求与一定算法搜索数据,一般除了精准搜索数据外,还会利用ES的各项能力对搜索语句进行分词搜索、转拼音搜索、中文首字母搜索。但在海量数据中,搜索的数据会非常多,数量级很大,耗时较长;且搜索的结果往往是直接关联与硬匹配,匹配度越高的数据,排名越靠前;而且,没有智能联想的能力,首先搜索条件未能联想到相关关系词,其次也未能根据不同维度联想到行业关系词,没有侧重点,不太利于用户在最短时间内获取最优数据。
用户搜索数据通常会具有侧重点,相同搜索词在不同维度下,希望搜索引擎可以智能联想到不同的相关数据,例如:同样是搜索“苹果”,在“电子科技”维度中希望优先搜索到“苹果手机”、“苹果公司”、“乔布斯”、“iPhone”等等;在“农副产品”维度中希望优先搜索到“烟台苹果”、“水果”、“橘子”等等;在“学术科研”维度中希望优先搜索到“苹果”、“牛顿”、“万有引力”、“亚当夏娃”等等。
发明内容
针对相关技术中的上述技术问题,本发明提出一种基于ElasticSearch实现多维度智能搜索相关数据的系统和方法,能够克服现有技术的上述不足。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种基于ElasticSearch实现多维度智能搜索相关数据的系统,包括词根模块、维度管理模块、词关系管理模块、权重配置模块、智能联想模块五个模块;
所述词根模块用于提供词根来构成搜索需要的词汇,并根据需要维护词根的基础信息;
所述维度管理模块用于定义所述词根模块中各种词根的维度,为搜索联想奠定基础范围;
所述词关系管理模块用于在搜索引擎构建搜索条件时,为词根配置不同维度的关系词;
所述权重配置模块用于根据不同的维度设置不同词关系的权重,以及设置原词、分词、衍生词的附加权重;
所述智能联想模块将原词根据ES智能拆词规则拆分,加入维度后,获取相关的词根信息,并将这些数据加工后,形成ES搜索引擎可识别的检索条件;
所述词根模块、所述维度管理模块、所述词关系管理模块、所述权重配置模块、所述智能联想模块五个模块之间的数据均独立存储,使用词根ID和维度ID将五个模块之间的数据串联起来。
进一步的,所述词根的基础信息包括名称、拼音、热度、违禁信息。
进一步的,所述维度包括综合通用、电子科技、农副产品、学术科研、军事国防。
进一步的,所述词关系包括同义词、近义词、相似词、反义词。
进一步的,所述原词为传入到搜索系统中未加工过的语句;所述分词为使用ES分词器将搜索语句拆分成的新的语句;所述衍生词为词根的相关词。
本发明还公开了一种基于ElasticSearch实现多维度智能搜索相关数据的方法,包括如下步骤:
S1:获取用户传入的搜索条件;
S2:判断用户传入的搜索条件是否是词根;
S3:若S2中的搜索条件是词根,则获取词根的基础信息,并判断词根是否违禁;
S4:若S3中的词根是违禁词,则拒绝搜索,若S3中的词根不是违禁词,则定义当前的词根的维度;
S5:根据S4中需求的维度,获取当前维度的词关系;
S6:若S2中的搜索条件不是词根,则使用ES分词器对搜索条件进行分词,产生词根,然后进行步骤S3-S5;
S7:对S5中的词关系进行过滤检查,去除违禁词;
S8:构建新的搜索条件,将新的搜索条件根据每种词的权重加入到相关度分数计算公式中,再加入不能包含违禁词的搜索条件,构建出ES搜索引擎识别的搜索条件;
S9:调用ElasticSearch的搜索服务,将S8中构建的搜索条件传入,由ES将数据分页搜出来;
S10:搜出数据后,将数据集合返回给用户;
S11:若搜索条件是词根,则给此词根增加1点热度,若搜索条件不是词根,则由ES分词器将此搜索条件拆分出词根,给这些词根均加1点热度。
进一步的,在步骤S6中,ES分词器包括单字分词、二分法分词、词库分词三种。
其中,所述单字分词是将搜索条件中的每个字均拆分出来成为词根;所述二分法分词是将搜索条件按两个字进行切分成为词根;所述词库分词是按某种算法构造词,然后去匹配已建好的词库集合,如果匹配到就切分出来成为词根。
进一步的,步骤S8中,相关度分数计算公式使用TF/IDF算法:
Figure BDA0002469702390000031
其中,TF/IDF算法中,score(q,d)为相关性打分函数,其中q为查询语句,d为匹配的文档;coord(q,d)为评分因子,基于文档中出现查询项的个数;queryNorm(q)为查询的标准查询;t为分词后的词项;tf(tind)为词项t在文档d中出现的次数;idf(t)为出现词项t的文档数;boost(t)为查询时候的查询项加权,控制相关度;norm(t,d)为长度相关的加权因子。
本发明的有益效果:本发明通过词根与衍生词的关联,描绘了词根的联想数据的来源,通过对词根的合理使用和科学管理,加速了整个词根规范管理的进度,更贴合企业生产的需要,同时也明确了各维度的服务方向;解决了企业在大数据搜索和应用中数据偏向性精准获取的难题,提高了数据响应质量,提高了被搜索的几率;减少了企业对大数据的搜索和管理的难度,协助企业完成对数据搜索的智能应用,为企业信息系统的建设和发展提供有力支撑;各模块相互之间使用接口通信,降低了功能模块的耦合度,提高了模块的复用率,降低了系统后期改造升级的成本。通过该检索系统和方法,提高了数据精准度,节约了使用者的信息获取时间。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例所述的一种基于ElasticSearch实现多维度智能搜索相关数据的系统和方法的流程图;
图2是根据本发明实施例所述的一种基于ElasticSearch实现多维度智能搜索相关数据的系统和方法使用ES分词器将“中国地区的苹果”进行分词的过程示意图;
图3是根据本发明实施例所述的一种基于ElasticSearch实现多维度智能搜索相关数据的系统和方法在“电子科技”维度下搜索“中国地区的苹果”的结果示意图;
图4是根据本发明实施例所述的一种基于ElasticSearch实现多维度智能搜索相关数据的系统和方法的热度计分趋势图;
图5是根据本发明实施例所述的一种基于ElasticSearch实现多维度智能搜索相关数据的系统和方法的系统架构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
如图5所示,根据本发明实施例所述的一种基于ElasticSearch实现多维度智能搜索相关数据的系统,包括词根模块、维度管理模块、词关系管理模块、权重配置模块、智能联想模块五个模块;
词根模块用于提供词根来构成搜索需要的词汇,并根据需要维护词根的基础信息;
维度管理模块用于定义所述词根模块中各种词根的维度,为搜索联想奠定基础范围;
词关系管理模块用于在搜索引擎构建搜索条件时,为词根配置不同维度的关系词;
权重配置模块用于根据不同的维度设置不同词关系的权重,以及设置原词、分词、衍生词的附加权重;
智能联想模块将原词根据ES智能拆词规则拆分,加入维度后,获取相关的词根信息,并将这些数据加工后,形成ES搜索引擎可识别的检索条件;
词根模块、维度管理模块、词关系管理模块、权重配置模块、智能联想模块五个模块之间的数据均独立存储,使用词根ID和维度ID将五个模块之间的数据串联起来。
在一具体实施例中,词根的基础信息包括名称、拼音、热度、违禁信息。
优选的,名称例如:中国、中国人、国家、天府之国。
优选的,拼音例如:zhongguo、zhongguoren、guojia、tianfuzhiguo。
优选的,热度为搜索命名一次,则会增加1点热度,被搜索次数越多,热度就越高。
优选的,违禁信息为定期从百度接口中获取违禁词集合,更新到企业词根,由词根管理模块进一步管理,企业也可根据自身需要,将一些词根设置为违禁词,一般涉及敏感事件、涉政人物、散布谣言、反动宣传、暴力行为、赌博、毒品、枪支弹药等方面的词汇都是违禁词。
在一具体实施例中,维度包括综合通用、电子科技、农副产品、学术科研、军事国防等。
优选的,若词根没有指定的维度,则会使用“综合通用”这个维度。
在一具体实施例中,词关系包括同义词、近义词、相似词、反义词等。
在一具体实施例中,原词为传入到搜索系统中未加工过的语句;分词为使用ES分词器将搜索语句拆分成的新的语句;衍生词为词根的相关词。
如图1所示,本发明还公开了一种基于ElasticSearch实现多维度智能搜索相关数据的方法,包括如下步骤:
S1:获取用户传入的搜索条件;
S2:判断用户传入的搜索条件是否是词根;
S3:若S2中的搜索条件是词根,则获取词根的基础信息,并判断词根是否违禁;
S4:若S3中的词根是违禁词,则拒绝搜索,若S3中的词根不是违禁词,则定义当前的词根的维度;
S5:根据S4中需求的维度,获取当前维度的词关系;
S6:若S2中的搜索条件不是词根,则使用ES分词器对搜索条件进行分词,产生词根,然后进行步骤S3-S5;
S7:对S5中的词关系进行过滤检查,去除违禁词;
S8:构建新的搜索条件,将新的搜索条件根据每种词的权重加入到相关度分数计算公式中,再加入不能包含违禁词的搜索条件,构建出ES搜索引擎识别的搜索条件;
S9:调用ElasticSearch的搜索服务,将S8中构建的搜索条件传入,由ES将数据分页搜出来;
S10:搜出数据后,将数据集合返回给用户;
S11:若搜索条件是词根,则给此词根增加1点热度,若搜索条件不是词根,则由ES分词器将此搜索条件拆分出词根,给这些词根均加1点热度。
在一具体实施例中,步骤S5,例如:词根是“苹果”,维度是“电子科技”,则获取到的相关数据是,同义词为Apple、苹果公司、美国苹果,近义词为华为、小米、三星,相似词为苹果手机、iPhone、ipad、Mac,反义词无。
在一具体实施例中,步骤S6,ES分词器包括单字分词、二分法分词、词库分词三种。
优选的,单字分词是将搜索条件中的每个字均拆分出来成为词根,如对“中国地区的苹果”进行单字分词的结果为,“中”、“国”、“地”、“区”、“的”、“苹”、“果”。
优选的,二分法分词是将搜索条件按两个字进行切分成为词根,如对“中国地区的苹果”进行二分法分词的结果为,“中国”、“国地”、“地区”、“区的”、“的苹”、“苹果”。
如图2所示,优选的,词库分词是按某种算法构造词,然后去匹配已建好的词库集合,如果匹配到就切分出来成为词根,如对“中国地区的苹果”进行词库分词的结果为“中国”、“地区”、“中国地区”、“的”、“苹果”。
如图3所示,在一具体实施例中,步骤S6使用ES分词器对“电子科技”维度下的“中国地区的苹果”进行分词,产生词根的方法为:(1)经过ES分词器将搜索语句“中国地区的苹果”,智能拆分为:中国、中国地区、地区、苹果;(2)然后,再通过指定维度“电子科技”去寻找分词的相关关系词,经过计算,只有“苹果”具有多维度,所以,将“苹果”的“电子科技”维度的关系词查出;(3)其他分词不具备多维度,所以使用“综合常规”维度的关系词;经过联想和计算,得出新的搜索条件:中国地区的苹果、中国、地区、中国地区、苹果、中华人民共和国、大中国、唐、汉、范围、地点、地域、Apple、苹果公司、美国苹果、华为、小米、三星、苹果手机、iPhone、iPad、Mac。
如图4所示,在一具体实施例中,步骤S8,原词权重为10分;分词权重为5分;衍生词权重为2分,衍生词又可以再加上同义词1分、近义词0.8分、相似词0.8分、反义词0.1分;热度权重为根据热度值,计算出无限趋近于10的分数,无论热度多高,不能超过10分,否则会严重影响算分公式,偏离最优搜索结果。
优选的,如在“电子科技”维度下搜索“中国地区的苹果”的结果中,“中国地区的苹果”为10分(原词10分);“中国”为9.85分(分词5分+热度4.85分);“地区”为7.63分(分词5分+热度2.63分);“中国地区”为8.21分(分词5分+热度3.21分);“苹果”为9.623分(分词5分+热度4.623分);“Apple”为7.756分(衍生词2分+同义词1分+热度4.756分);“苹果公司”为6.55分(衍生词2分+同义词1分+热度3.55分);“美国苹果”为4.21分(衍生词2分+同义词1分+热度1.21分);“华为”为8.63分(衍生词2分+近义词0.8分+热度5.83分);“小米”为7.49分(衍生词2分+近义词0.8分+热度4.69分);“iPhone”为8.51分(衍生词2分+相似词0.8分+热度5.71分)等。
在一具体实施例中,步骤S8,相关度分数计算公式使用TF/IDF算法:
Figure BDA0002469702390000081
优选的,TF/IDF算法中,score(q,d)为相关性打分函数,其中q为查询语句,d为匹配的文档;coord(q,d)为评分因子,基于文档中出现查询项的个数;queryNorm(q)为查询的标准查询;t为分词后的词项;tf(tind)为词项t在文档d中出现的次数;idf(t)为出现词项t的文档数;boost(t)为查询时候的查询项加权,控制相关度;norm(t,d)为长度相关的加权因子。
优选的,当boost>1时,打分的相关度相对性提升;当0<boost<1时,打分的权重相对性降低;当boost<0时,贡献负分。
为了方便理解本发明的上述技术方案,以下通过具体使用方式上对本发明的上述技术方案进行详细说明。
在具体使用时,根据本发明所述的一种基于ElasticSearch实现多维度智能搜索相关数据的系统和方法,系统包括词根模块、维度管理模块、词关系管理模块、权重配置模块、智能联想模块五个模块,方法为首先需要获得用户传入的搜索条件;然后判断用户传入的搜索条件是否是词根,若是词根,则获取词根的基础信息,再对传入的搜索条件做检查,判断是否违禁,若是违禁词,则直接拒绝搜索,若不涉及敏感词汇,则定义当前词根的维度,再根据需求的维度,获取当前维度的关系词,包括:同义词、近义词、相似词、反义词等,若用户传入的搜索条件不是词根,则使用词库分词法,对搜索语句进行分词,产生词根,继续对词根进行处理,获取词关系和当前维度的关系词;再对词关系进行过滤检查,去除违禁词;然后构建新的搜索条件,将新的搜索条件根据每种词的权重加入到相关度分数计算公式中,再加入不能包含违禁词的搜索条件,构建出ES搜索引擎识别的搜索条件;调用ElasticSearch的搜索服务,将构建的搜索条件传入,由ES将数据分页搜出来,并将数据集合返回给用户;若搜索条件是词根,则给此词根增加1点热度,若搜索条件不是词根,则由ES分词器将此搜索条件拆分出词根,给这些词根均加1点热度。这样,通过词根、维度、衍生词的相互关联,各词的权重加分不同,描绘了整个多维度智能搜索的过程,使搜索的结果无限接近用户需要的数据,且使用多维度管理搜索过程后,构建智能搜索体系,提升了搜索质量,为企业信息化的建设和发展提供了有力支撑。
综上所述,本发明通过在海量数据中根据搜索维度和搜索条件,来搜索精准度和相似度最高的数据资源,解决了不同维度不同行业中对于同一种检索词的不同数据响应,在大数据环境中根据需要的检索维度提高检索的准确度;以ElasticSearch的算分公式为基础,使用指定维度获取相关关系词,增加各维度各关系的计分权重,通过不同维度不同关系词的计分权重的规则,可将热点数据或特殊数据优先命中,提高被搜索的几率,达到最接近需要的搜索结论,以此提高搜索引擎的智能度。通过该检索系统和方法,提高了数据精准度,节约了使用者的信息获取时间。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于ElasticSearch实现多维度智能搜索相关数据的系统,其特征在于,包括词根模块、维度管理模块、词关系管理模块、权重配置模块、智能联想模块五个模块;
所述词根模块用于提供词根来构成搜索需要的词汇,并根据需要维护词根的基础信息;
所述维度管理模块用于定义所述词根模块中各种词根的维度,为搜索联想奠定基础范围;
所述词关系管理模块用于在搜索引擎构建搜索条件时,为词根配置不同维度的关系词;
所述权重配置模块用于根据不同的维度设置不同词关系的权重,以及设置原词、分词、衍生词的附加权重;
所述智能联想模块将原词根据ES智能拆词规则拆分,加入维度后,获取相关的词根信息,并将这些数据加工后,形成ES搜索引擎可识别的检索条件;
所述词根模块、所述维度管理模块、所述词关系管理模块、所述权重配置模块、智能联想模块五个模块之间的数据均独立存储,使用词根ID和维度ID将五个模块之间的数据串联起来。
2.根据权利要求1所述的一种基于ElasticSearch实现多维度智能搜索相关数据的系统,其特征在于,所述词根的基础信息包括名称、拼音、热度、违禁信息。
3.根据权利要求1所述的一种基于ElasticSearch实现多维度智能搜索相关数据的系统,其特征在于,所述维度包括综合通用、电子科技、农副产品、学术科研、军事国防。
4.根据权利要求1所述的一种基于ElasticSearch实现多维度智能搜索相关数据的系统,其特征在于,所述词关系包括同义词、近义词、相似词、反义词。
5.根据权利要求1所述的一种基于ElasticSearch实现多维度智能搜索相关数据的系统,其特征在于,所述原词为传入到搜索系统中未加工过的语句;所述分词为使用ES分词器将搜索语句拆分成的新的语句;所述衍生词为词根的相关词。
6.一种基于ElasticSearch实现多维度智能搜索相关数据系统的方法,其特征在于,包括如下步骤:
S1:获取用户传入的搜索条件;
S2:判断用户传入的搜索条件是否是词根;
S3:若S2中的搜索条件是词根,则获取词根的基础信息,并判断词根是否违禁;
S4:若S3中的词根是违禁词,则拒绝搜索,若S3中的词根不是违禁词,则定义当前的词根的维度;
S5:根据S4中需求的维度,获取当前维度的词关系;
S6:若S2中的搜索条件不是词根,则使用ES分词器对搜索条件进行分词,产生词根,然后进行步骤S3-S5;
S7:对S5中的词关系进行过滤检查,去除违禁词;
S8:构建新的搜索条件,将新的搜索条件根据每种词的权重加入到相关度分数计算公式中,再加入不能包含违禁词的搜索条件,构建出ES搜索引擎识别的搜索条件;
S9:调用ElasticSearch的搜索服务,将S8中构建的搜索条件传入,由ES将数据分页搜出来;
S10:搜出数据后,将数据集合返回给用户;
S11:若搜索条件是词根,则给此词根增加1点热度,若搜索条件不是词根,则由ES分词器将此搜索条件拆分出词根,给这些词根均加1点热度。
7.根据权利要求6所述的一种基于ElasticSearch实现多维度智能搜索相关数据系统的方法,其特征在于,在步骤S6中,ES分词器包括单字分词、二分法分词、词库分词三种。
8.根据权利要求7所述的一种基于ElasticSearch实现多维度智能搜索相关数据系统的方法,其特征在于,所述单字分词是将搜索条件中的每个字均拆分出来成为词根;所述二分法分词是将搜索条件按两个字进行切分成为词根;所述词库分词是按某种算法构造词,然后去匹配已建好的词库集合,如果匹配到就切分出来成为词根。
9.根据权利要求6所述的一种基于ElasticSearch实现多维度智能搜索相关数据系统的方法,其特征在于,步骤S8中,相关度分数计算公式使用TF/IDF算法:
Figure FDA0002469702380000031
10.根据权利要求9所述的一种基于ElasticSearch实现多维度智能搜索相关数据系统的方法,其特征在于,TF/IDF算法中,score(q,d)为相关性打分函数,其中q为查询语句,d为匹配的文档;coord(q,d)为评分因子,基于文档中出现查询项的个数;queryNorm(q)为查询的标准查询;t为分词后的词项;tf(tind)为词项t在文档d中出现的次数;idf(t)为出现词项t的文档数;boost(t)为查询时候的查询项加权,控制相关度;norm(t,d)为长度相关的加权因子。
CN202010344863.6A 2020-04-27 2020-04-27 一种基于ElasticSearch实现多维度智能搜索相关数据的系统和方法 Active CN111597412B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010344863.6A CN111597412B (zh) 2020-04-27 2020-04-27 一种基于ElasticSearch实现多维度智能搜索相关数据的系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010344863.6A CN111597412B (zh) 2020-04-27 2020-04-27 一种基于ElasticSearch实现多维度智能搜索相关数据的系统和方法

Publications (2)

Publication Number Publication Date
CN111597412A true CN111597412A (zh) 2020-08-28
CN111597412B CN111597412B (zh) 2023-08-22

Family

ID=72185579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010344863.6A Active CN111597412B (zh) 2020-04-27 2020-04-27 一种基于ElasticSearch实现多维度智能搜索相关数据的系统和方法

Country Status (1)

Country Link
CN (1) CN111597412B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364635A (zh) * 2020-11-30 2021-02-12 中国银行股份有限公司 企业名称查重方法及装置
CN112883143A (zh) * 2021-02-25 2021-06-01 华侨大学 一种基于Elasticsearch的数字展会搜索方法与系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070011154A1 (en) * 2005-04-11 2007-01-11 Textdigger, Inc. System and method for searching for a query
CN102768679A (zh) * 2012-06-25 2012-11-07 深圳市汉络计算机技术有限公司 一种搜索方法及搜索系统
CN103455507A (zh) * 2012-05-31 2013-12-18 国际商业机器公司 搜索引擎推荐方法及装置
CN105550359A (zh) * 2015-12-31 2016-05-04 北京金山安全软件有限公司 一种基于垂直搜索的网页排序方法、装置及服务器
WO2016112832A1 (zh) * 2015-01-12 2016-07-21 杏树林信息技术(北京)有限公司 医学信息搜索引擎系统和搜索方法
CN107247780A (zh) * 2017-06-12 2017-10-13 北京理工大学 一种基于知识本体的专利文献相似性度量方法
CN107330057A (zh) * 2017-06-29 2017-11-07 哈尔滨工程大学科技园发展有限公司 一种ElasticSearch搜索相关度算法优化方法及系统
CN107329583A (zh) * 2017-06-15 2017-11-07 北京京东尚科信息技术有限公司 一种计算联想词优先级的方法和装置
CN110362732A (zh) * 2019-07-18 2019-10-22 江苏中威科技软件系统有限公司 一种信息系统内容搜索的方法
CN110941641A (zh) * 2019-11-15 2020-03-31 南威软件股份有限公司 一种跨多个数据库进行数据搜索的方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070011154A1 (en) * 2005-04-11 2007-01-11 Textdigger, Inc. System and method for searching for a query
CN103455507A (zh) * 2012-05-31 2013-12-18 国际商业机器公司 搜索引擎推荐方法及装置
CN102768679A (zh) * 2012-06-25 2012-11-07 深圳市汉络计算机技术有限公司 一种搜索方法及搜索系统
WO2016112832A1 (zh) * 2015-01-12 2016-07-21 杏树林信息技术(北京)有限公司 医学信息搜索引擎系统和搜索方法
CN105550359A (zh) * 2015-12-31 2016-05-04 北京金山安全软件有限公司 一种基于垂直搜索的网页排序方法、装置及服务器
CN107247780A (zh) * 2017-06-12 2017-10-13 北京理工大学 一种基于知识本体的专利文献相似性度量方法
CN107329583A (zh) * 2017-06-15 2017-11-07 北京京东尚科信息技术有限公司 一种计算联想词优先级的方法和装置
CN107330057A (zh) * 2017-06-29 2017-11-07 哈尔滨工程大学科技园发展有限公司 一种ElasticSearch搜索相关度算法优化方法及系统
CN110362732A (zh) * 2019-07-18 2019-10-22 江苏中威科技软件系统有限公司 一种信息系统内容搜索的方法
CN110941641A (zh) * 2019-11-15 2020-03-31 南威软件股份有限公司 一种跨多个数据库进行数据搜索的方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364635A (zh) * 2020-11-30 2021-02-12 中国银行股份有限公司 企业名称查重方法及装置
CN112364635B (zh) * 2020-11-30 2023-11-21 中国银行股份有限公司 企业名称查重方法及装置
CN112883143A (zh) * 2021-02-25 2021-06-01 华侨大学 一种基于Elasticsearch的数字展会搜索方法与系统

Also Published As

Publication number Publication date
CN111597412B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
US9864808B2 (en) Knowledge-based entity detection and disambiguation
Zhang et al. Ad hoc table retrieval using semantic similarity
US8903794B2 (en) Generating and presenting lateral concepts
US10210243B2 (en) Method and system for enhanced query term suggestion
AU2010208318B2 (en) Identifying query aspects
US20090119281A1 (en) Granular knowledge based search engine
WO2004013775A2 (en) Data search system and method using mutual subsethood measures
WO2004013774A2 (en) Search engine for non-textual data
WO2004013772A2 (en) System and method for indexing non-textual data
EP1949273A1 (en) Extending keyword searching to syntactically and semantically annotated data
US20110191335A1 (en) Method and system for conducting legal research using clustering analytics
CN112612875B (zh) 一种查询词自动扩展方法、装置、设备及存储介质
Elshater et al. godiscovery: Web service discovery made efficient
CN111597412A (zh) 一种基于ElasticSearch实现多维度智能搜索相关数据的系统和方法
US10565188B2 (en) System and method for performing a pattern matching search
US6785669B1 (en) Methods and apparatus for flexible indexing of text for use in similarity searches
JP2001184358A (ja) カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体
CN111737413A (zh) 基于概念网语义的反馈模型信息检索方法、系统及介质
JP6843588B2 (ja) 文書検索方法及び装置
US20180330015A1 (en) Scalable approach to information-theoretic string similarity using a guaranteed rank threshold
Omri Effects of terms recognition mistakes on requests processing for interactive information retrieval
Kumar et al. An efficient and optimized sematic web enabled framework (EOSWEF) for Google search engine using ontology
CN116610782B (zh) 文本检索方法、装置、电子设备及介质
Liuyang et al. Question answering system based on knowledge graph in air defense field
JP2011221877A (ja) 関連語抽出装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant