CN112883143A - 一种基于Elasticsearch的数字展会搜索方法与系统 - Google Patents
一种基于Elasticsearch的数字展会搜索方法与系统 Download PDFInfo
- Publication number
- CN112883143A CN112883143A CN202110214012.4A CN202110214012A CN112883143A CN 112883143 A CN112883143 A CN 112883143A CN 202110214012 A CN202110214012 A CN 202110214012A CN 112883143 A CN112883143 A CN 112883143A
- Authority
- CN
- China
- Prior art keywords
- word
- exhibition
- data
- search
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000011218 segmentation Effects 0.000 claims abstract description 22
- 239000011159 matrix material Substances 0.000 claims abstract description 5
- 238000012163 sequencing technique Methods 0.000 claims abstract description 5
- 238000012216 screening Methods 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims description 22
- 239000012634 fragment Substances 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000001960 triggered effect Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000013467 fragmentation Methods 0.000 description 2
- 238000006062 fragmentation reaction Methods 0.000 description 2
- 244000062793 Sorghum vulgare Species 0.000 description 1
- 235000010724 Wisteria floribunda Nutrition 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000000692 anti-sense effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 235000019713 millet Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Abstract
本发明公开了一种基于Elasticsearch的数字展会搜索方法与系统,方法包括:根据展会数据规模、组展需求以及相关性能需求进行集群的设置;获取展会数据、用户基本数据和参展商公司数据;使用正向迭代最细粒度切分算法识别词元,对词元进行倒排索引形成索引结构;使用基于统计的新词发现算法进行词频和互信息计算,构建展会不同维度的个性化词典;针对用户的展会浏览数据进行相似度矩阵计算,建立用户偏好模型,对用户的搜索结果进行筛选和排序。本发明解决了海量展会数据的索引和检索问题,解决了大数据搜索中数据偏向性精准获取的难题,确保展会参与各方更加便捷地获取信息。
Description
技术领域
本发明涉及大智能搜索技术领域,特别涉及一种基于Elasticsearch的数字展会搜索方法与系统。
背景技术
基于人工智能技术掀起的技术改革浪潮,在大数据支撑下,通过互联网举办线上数字展会,相比线下实体展会节省了人力、物力成本,并能在海量的信息数据中收集有效的信息,促进线上展会的顺利进行。对于听众来说,更加直观化地了解展会参展企业和参展商品,打破时间、空间限制,拓展受众视野,为其提供舒适的参观环境和最佳的参观效果,受众可根据自身实际有针对性的选择自己所需的产品。
曾经,线下展会所呈现出的“眼见为实”和“亲密接触”被认为是寻找贸易伙伴不可替代的模式。而随着大数据和移动互联网的高速发展,线上展会逐渐为展会主办方、展商和买家所接受。2020年疫情的全球蔓延,更加凸显了线上展会作为线下展会的常规补充和特殊情况下的替代作用。
随着数字展会不断发展,展会规模不断扩大,如何快速、高效地从展会的海量数据中检索、挖掘出有用的信息成为现在智能搜索引擎发展的一大难题。在企业大数据搜索领域中,通常会使用Elasticsearch(ES)作为搜索引擎。Elasticsearch是一个开源的实时分布式搜索和分析引擎,它主要应用于海量数据的检索、日志分析等场景。
在数字展会系统中,用户输入的关键词通常是多维度的,而用户期望的搜索结果通常侧重于某一种或几种维度。例如:用户搜索“苹果”,在“数码科技”展区中代表“苹果公司”、“苹果手机”、“苹果电脑”等;在“农副产品”展区中代表“红富士”、“水果”等。在展会的应用场景中,需要一个更加智能化的搜索引擎,结合用户偏好模型对搜索结果做智能排序和筛选,实现搜索数据的个性化推荐。
发明内容
本发明的目的在于克服现有技术的不足,提出一种基于Elasticsearch的数字展会搜索方法与系统,能够解决展会海量数据的检索,同时实现搜索结果的多维度智能排序。
本发明采用如下技术方案:
一方面,一种基于Elasticsearch的数字展会搜索方法,包括:
S101,获取用户输入的关键词和搜索条件;
S102,判断用户传入的搜索条件是否是词根或违禁词,并定义当前的词根的维度,获取当前维度的词关系;
S103,使用IK正向迭代最细粒度切分算法对所述关键词和搜索条件进行分词以识别词元,对词元进行倒排序索引形成索引结构;
S104,采用基于统计的新词发现算法,构建展会不同维度的个性化词典,再加入不能包含违禁词的搜索条件,以构建新的搜索条件;
S105,调用Elasticsearch的检索接口,传入构建的新的搜索条件,得到每个索引分片的搜索结果;
S106,基于用户的展会浏览数据进行相似度矩阵计算,建立用户偏好模型,根据用户偏好模型对搜索结果进行筛选和排序,并展示给用户。
优选的,所述获取用户输入的关键词和搜索条件之前,还包括:
根据展会数据规模、组展需求以及相关性能需求进行Elasticsearch分布式搜索集群的设置,以及,获取展会数据、用户基本数据、参展商公司数据。
优选的,所述维度包括展品的不同分类;所述词关系包括同义词、近义词、相似词和反义词。
优选的,所述S103中,提供了Bulk的方式进行数据的批量索引,把多个索引操作通过一个请求提交给Elasticsearch分布式搜索集群,还设定索引周期,将要索引数据的最大值来自动触发索引请求;采用分布式索引方式,每条索引数据需要根据该条数据的ID进行一个哈希转换把它分配到对应的索引分片上。
优选的,所述S104之前还包括:
根据不同维度设置不同词关系的权重,以及设置原词、分词和衍生词的附加权重;所述原词为传入到Elasticsearch中未加工过的搜索语句,所述分词为使用IK正向迭代最细粒度切分算法将搜索语句拆分成的新的语句;所述衍生词为词根的相关词。
优选的,所述采用基于统计的新词发现算法,构建展会不同维度的个性化词典,具体包括:
采用基于统计的新词发现算法,通过找到规定长度的所有词汇,对这些词汇进行词频和互信息计算,判断计算指标是否满足预先设定的指标阀值,如果满足就作为新词,以构建展会不同维度的个性化词典。
优选的,所述S106,具体包括:
通过用户对展品的评分数据并行化的计算出了每种展品的平均评分值;
利用展品之间的相关数据并行化的计算出了它们之间的相似度;
使用展品之间的相似度值计算每个用户对未评分展品的预测评分;
照用户对每种展品的评分将搜索结果进行重排序,并展示给用户。
另一方面,一种基于Elasticsearch的数字展会搜索系统,包括中文分词模块、Elasticsearch分布式搜索模块和智能推荐模块;所述Elasticsearch分布式搜索模块与所述中文分词模块和所述智能推荐模块分别相连接;所述中文分词模块包括词关系管理单元、权重配置单元和新词发现单元;所述Elasticsearch分布式搜索模块包括分布式集群设置单元、数据索引单元和数据搜索单元;所述词关系管理单元用于在搜索引擎构建搜索条件时,为词根配置不同维度的关系词;所述权重配置单元用于根据不同维度设置不同词关系的权重,以及设置原词、分词和衍生词的附加权重;所述新词发现单元用于采用基于统计的新词发现算法,通过找到规定长度的所有词汇,对这些词汇进行词频和互信息计算,判断计算指标是否满足预先设定的指标阀值,如果满足就作为新词,以构建展会不同维度的个性化词典;所述分布式集群设置单元用于根据展会数据规模、组展需求以及相关性能需求进行集群的设置,包括了集群的规模设置、集群中各个节点的分工设置以及集群相关配置的设置;所述数据索引单元用于对导入的展会数据进行分词,然后对词元进行倒排索引形成索引结构,以供后续的数据搜索单元使用;所述数据搜索单元用于在Elasticsearch分布式搜索集群上,根据用户输入的关键字、选择的搜索方式以及搜索的索引范围来进行实时的搜索,并把搜索的结果返回给用户;所述智能推荐模块用于根据用户参展信息预测出用户喜好,并对用户进行个性化推荐。
优选的,所述词关系管理单元中的维度为展品的不同分类;所述词关系包括同义词、近义词、相似词和反义词。
优选的,所述权重配置单元中的原词为传入到Elasticsearch中未加工过的搜索语句,所述分词为使用IK正向迭代最细粒度切分算法将搜索语句拆分成的新的语句;所述衍生词为词根的相关词。
与现有技术相比,本发明的有益效果如下:
本发明针对展会数据的特点设计了对应的文本分析器,实现了基于统计的自动新词发现算法;随着索引数据的增加,可以自动化的构建出对应维度的个性化词典并丰富词典,让文本分析器越来越精确;此外,本发明提出的搜索方法/系统基于分布式集群搭建,可以实现实时的存储和检索,并具有高扩展性;进一步的,本发明解决了海量展会数据的索引和检索问题,解决了大数据搜索中数据偏向性精准获取的难题,确保展会参与各方更加便捷获取信息,提高展会的时效性,促进线上展会不断向着智能化、现代化方向发展,为数字展会系统的建设和发展提供了有力支撑。
上述说明仅是本发明技术方案的概述,为了能够更清楚地了解本发明的技术手段,从而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下列举本发明的具体实施方式。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述及其他目的、优点和特征。
附图说明
图1为本发明方法的流程图;
图2为本发明系统的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步的详细描述。
参见图1所示,一种基于Elasticsearch的数字展会搜索方法,包括:
S101,获取用户输入的关键词和搜索条件;
S102,判断用户传入的搜索条件是否是词根或违禁词,并定义当前的词根的维度,获取当前维度的词关系;
S103,使用IK正向迭代最细粒度切分算法对所述关键词和搜索条件进行分词以识别词元,对词元进行倒排序索引形成索引结构;
S104,采用基于统计的新词发现算法,构建展会不同维度的个性化词典,再加入不能包含违禁词的搜索条件,以构建新的搜索条件;
S105,调用Elasticsearch的检索接口,传入构建的新的搜索条件,得到每个索引分片的搜索结果;
S106,基于用户的展会浏览数据进行相似度矩阵计算,建立用户偏好模型,根据用户偏好模型对搜索结果进行筛选和排序,并展示给用户。
具体的,所述获取用户输入的关键词和搜索条件之前,还包括:
根据展会数据规模、组展需求以及相关性能需求进行Elasticsearch分布式搜索集群的设置,以及,获取展会数据、用户基本数据、参展商公司数据。
Elasticsearch分布式搜索集群的设置包括了集群的规模设置、集群中各个节点的分工设置以及集群相关配置等各个方面的设置。所述集群规模设置主要为服务器的数量和内存大小。所述分布式集群设置单元中的节点分工类型包括主节点、负载均衡节点以及数据节点。所有节点在集群中进行协同工作、数据的分布式存储以及工作的均衡负载。集群相关配置主要包括索引数据的主分片和从分片的大小和数量配置、线程池类型和大小配置。
进一步的,如下以一具体实施例说明词根的产生方法。如对“数码科技”维度下的“苹果公司是美国一家高科技公司”进行分词,产生词根的方法为:
(1)经过IK分词器将搜索语句“苹果公司是美国一家高科技公司”,智能拆分为:苹果、苹果公司、美国、高科技、高科技公司;
(2)然后,再通过指定维度“数码科技”去寻找分词的相关关系词,经过计算,只有“苹果”具有多维度,所以,将“苹果”的“数码科技”维度的关系词查出;
(3)经过联想和计算,得出新的搜索条件:苹果、美国、高科技、Apple、苹果公司、美国苹果、华为、小米、三星、苹果手机、iPhone、iPad、Mac。
进一步的,所述维度包括展品的不同分类,所述不同分类,如数码科技、农副产品、运动户外、家居家装等。所述词关系包括同义词、近义词、相似词和反义词。
所述S103中,提供了Bulk的方式进行数据的批量索引,把多个索引操作通过一个请求提交给Elasticsearch分布式搜索集群,还设定索引周期,将要索引数据的最大值来自动触发索引请求;采用分布式索引方式,每条索引数据需要根据该条数据的ID进行一个哈希转换把它分配到对应的索引分片上。Elasticsearch默认采用的分片路由算法是djb2哈希算法,它对索引文档的ID进行哈希计算并对哈希计算结果取模得到分片结果。
当索引文档进行分布式分片操作后,索引文档还需要进行文本分析过程。分片过程用于对索引文档的分发,文本分析过程对索引文档进行分析把其转换为Token流。本文针对不同类型的索引文档设置了不同的文本分析器,它们都包含字母过滤过程、分词过程以及单词过滤过程。字母过滤过程是针对输入的字符串进行清洗,包括了对特殊字符的过滤、特殊字符的转换等操作;分词过程是针对清洗后的字符串进行语义切分操作,把字符串分为多个单词;单词过滤过程是对分好的词元进行过滤,包括了单词大小写转换、单词单复数转换、停词过滤、同义词转换等操作。
在分布式搜索过程中,后台把搜索查询请求分发到了每个索引分片上进行搜索,每个分片上选取了前m个得分最高的搜索结果。然后对每个索引分片上的搜索结果进行汇聚,假设有n个分片,则对n×m搜索结果进行重排序,返回得分最高的前m个搜索结果到智能推荐模块中。
进一步的,所述S104之前还包括:
根据不同维度设置不同词关系的权重,以及设置原词、分词和衍生词的附加权重;所述原词为传入到Elasticsearch中未加工过的搜索语句,所述分词为使用IK正向迭代最细粒度切分算法将搜索语句拆分成的新的语句;所述衍生词为词根的相关词。
如下以一具体实施例为例对权重进行说明。令原词权重为10分;分词权重为5分;衍生词权重为2分,衍生词又可以再加上同义词1分、近义词0.8分、相似词0.8分、反义词0.1分。根据每种词的权重加入到相关度计算函数score(q,d)中,构建出搜索引擎识别的搜索条件。其中q为查询语句,d为匹配的文档;coord(q,d)为评分因子,基于文档中出现查询项的个数;queryNorm(q)为查询的标准查询;t为分词后的词项;tf(tind)为词项t在文档d中出现的次数;idf(t)为出现词项t的文档数;boost(t)为查询时候的查询项加权,控制相关度;norm(t,d)为长度相关的加权因子。当boost>1时,打分的相关度相对性提升;当0<boost<1时,打分的权重相对性降低;当boost<0时,贡献负分。
进一步的,所述采用基于统计的新词发现算法,构建展会不同维度的个性化词典,具体包括:
采用基于统计的新词发现算法,通过找到规定长度的所有词汇,对这些词汇进行词频和互信息计算,判断计算指标是否满足预先设定的指标阀值,如果满足就作为新词,以构建展会不同维度的个性化词典。
本实施例中,所述S106,具体包括:
通过用户对展品的评分数据并行化的计算出了每种展品的平均评分值;
利用展品之间的相关数据并行化的计算出了它们之间的相似度;
使用展品之间的相似度值计算每个用户对未评分展品的预测评分;
照用户对每种展品的评分将搜索结果进行重排序,并展示给用户。
参见图2所示,一种基于Elasticsearch的数字展会搜索系统,包括中文分词模块、Elasticsearch分布式搜索模块和智能推荐模块;所述Elasticsearch分布式搜索模块与所述中文分词模块和所述智能推荐模块分别相连接;所述中文分词模块包括词关系管理单元、权重配置单元和新词发现单元;所述Elasticsearch分布式搜索模块包括分布式集群设置单元、数据索引单元和数据搜索单元;所述词关系管理单元用于在搜索引擎构建搜索条件时,为词根配置不同维度的关系词;所述权重配置单元用于根据不同维度设置不同词关系的权重,以及设置原词、分词和衍生词的附加权重;所述新词发现单元用于采用基于统计的新词发现算法,通过找到规定长度的所有词汇,对这些词汇进行词频和互信息计算,判断计算指标是否满足预先设定的指标阀值,如果满足就作为新词,以构建展会不同维度的个性化词典;所述分布式集群设置单元用于根据展会数据规模、组展需求以及相关性能需求进行集群的设置,包括了集群的规模设置、集群中各个节点的分工设置以及集群相关配置的设置;所述数据索引单元用于对导入的展会数据进行分词,然后对词元进行倒排索引形成索引结构,以供后续的数据搜索单元使用;所述数据搜索单元用于在Elasticsearch分布式搜索集群上,根据用户输入的关键字、选择的搜索方式以及搜索的索引范围来进行实时的搜索,并把搜索的结果返回给用户;所述智能推荐模块用于根据用户参展信息预测出用户喜好,并对用户进行个性化推荐。
具体的,所述分布式集群设置单元中的集群规模设置主要为服务器的数量和内存大小。所述分布式集群设置单元中的节点分工类型包括主节点、负载均衡节点以及数据节点。所有节点在集群中进行协同工作、数据的分布式存储以及工作的均衡负载。集群相关配置主要包括索引数据的主分片和从分片的大小和数量配置、线程池类型和大小配置。
具体的,所述词关系管理单元中的维度为展品的不同分类,如数码科技、农副产品、运动户外、家居家装等;所述词关系包括同义词、近义词、相似词和反义词。
具体的,所述权重配置单元中的原词为传入到Elasticsearch中未加工过的搜索语句,所述分词为使用IK正向迭代最细粒度切分算法将搜索语句拆分成的新的语句;所述衍生词为词根的相关词。“正向迭代最细粒度切分算法”为一个开源的中文分词算法,本发明实施例不做具体说明。
进一步的,所述智能推荐模块采用基于协同过滤的离线计算进行个性化推荐。该模块会定时的针对用户的展会浏览数据进行相似度矩阵计算,从而计算出用户的偏好模型。当用户进行搜索操作时,利用事先计算好的推荐模型就能实时地对用户的搜索结果进行筛选和排序。
具体的,基于协同过滤的离线计算算法包括如下步骤:
(1)通过用户对展品的评分数据并行化的计算出了每种展品的平均评分值;
(2)利用展品之间的相关数据并行化的计算出了它们之间的相似度;
(3)使用展品之间的相似度值计算每个用户对未评分展品的预测评分;
(4)按照用户对每种展品的评分将搜索结果进行重排序。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。
Claims (10)
1.一种基于Elasticsearch的数字展会搜索方法,其特征在于,包括:
S101,获取用户输入的关键词和搜索条件;
S102,判断用户传入的搜索条件是否是词根或违禁词,并定义当前的词根的维度,获取当前维度的词关系;
S103,使用IK正向迭代最细粒度切分算法对所述关键词和搜索条件进行分词以识别词元,对词元进行倒排序索引形成索引结构;
S104,采用基于统计的新词发现算法,构建展会不同维度的个性化词典,再加入不能包含违禁词的搜索条件,以构建新的搜索条件;
S105,调用Elasticsearch的检索接口,传入构建的新的搜索条件,得到每个索引分片的搜索结果;
S106,基于用户的展会浏览数据进行相似度矩阵计算,建立用户偏好模型,根据用户偏好模型对搜索结果进行筛选和排序,并展示给用户。
2.根据权利要求1所述的基于Elasticsearch的数字展会搜索方法,其特征在于,所述获取用户输入的关键词和搜索条件之前,还包括:
根据展会数据规模、组展需求以及相关性能需求进行Elasticsearch分布式搜索集群的设置,以及,获取展会数据、用户基本数据、参展商公司数据。
3.根据权利要求1所述的基于Elasticsearch的数字展会搜索方法,其特征在于,所述维度包括展品的不同分类;所述词关系包括同义词、近义词、相似词和反义词。
4.根据权利要求1所述的基于Elasticsearch的数字展会搜索方法,其特征在于,所述S103中,提供了Bulk的方式进行数据的批量索引,把多个索引操作通过一个请求提交给Elasticsearch分布式搜索集群,还设定索引周期,将要索引数据的最大值来自动触发索引请求;采用分布式索引方式,每条索引数据需要根据该条数据的ID进行一个哈希转换把它分配到对应的索引分片上。
5.根据权利要求1所述的基于Elasticsearch的数字展会搜索方法,其特征在于,所述S104之前还包括:
根据不同维度设置不同词关系的权重,以及设置原词、分词和衍生词的附加权重;所述原词为传入到Elasticsearch中未加工过的搜索语句,所述分词为使用IK正向迭代最细粒度切分算法将搜索语句拆分成的新的语句;所述衍生词为词根的相关词。
6.根据权利要求1所述的基于Elasticsearch的数字展会搜索方法,其特征在于,所述采用基于统计的新词发现算法,构建展会不同维度的个性化词典,具体包括:
采用基于统计的新词发现算法,通过找到规定长度的所有词汇,对这些词汇进行词频和互信息计算,判断计算指标是否满足预先设定的指标阀值,如果满足就作为新词,以构建展会不同维度的个性化词典。
7.根据权利要求1所述的基于Elasticsearch的数字展会搜索方法,其特征在于,所述S106,具体包括:
通过用户对展品的评分数据并行化的计算出了每种展品的平均评分值;
利用展品之间的相关数据并行化的计算出了它们之间的相似度;
使用展品之间的相似度值计算每个用户对未评分展品的预测评分;
照用户对每种展品的评分将搜索结果进行重排序,并展示给用户。
8.一种基于Elasticsearch的数字展会搜索系统,其特征在于,包括中文分词模块、Elasticsearch分布式搜索模块和智能推荐模块;所述Elasticsearch分布式搜索模块与所述中文分词模块和所述智能推荐模块分别相连接;所述中文分词模块包括词关系管理单元、权重配置单元和新词发现单元;所述Elasticsearch分布式搜索模块包括分布式集群设置单元、数据索引单元和数据搜索单元;所述词关系管理单元用于在搜索引擎构建搜索条件时,为词根配置不同维度的关系词;所述权重配置单元用于根据不同维度设置不同词关系的权重,以及设置原词、分词和衍生词的附加权重;所述新词发现单元用于采用基于统计的新词发现算法,通过找到规定长度的所有词汇,对这些词汇进行词频和互信息计算,判断计算指标是否满足预先设定的指标阀值,如果满足就作为新词,以构建展会不同维度的个性化词典;所述分布式集群设置单元用于根据展会数据规模、组展需求以及相关性能需求进行集群的设置,包括了集群的规模设置、集群中各个节点的分工设置以及集群相关配置的设置;所述数据索引单元用于对导入的展会数据进行分词,然后对词元进行倒排索引形成索引结构,以供后续的数据搜索单元使用;所述数据搜索单元用于在Elasticsearch分布式搜索集群上,根据用户输入的关键字、选择的搜索方式以及搜索的索引范围来进行实时的搜索,并把搜索的结果返回给用户;所述智能推荐模块用于根据用户参展信息预测出用户喜好,并对用户进行个性化推荐。
9.根据权利要求8所述的基于Elasticsearch的数字展会搜索系统,其特征在于,所述词关系管理单元中的维度为展品的不同分类;所述词关系包括同义词、近义词、相似词和反义词。
10.根据权利要求8所述的基于Elasticsearch的数字展会搜索系统,其特征在于,所述权重配置单元中的原词为传入到Elasticsearch中未加工过的搜索语句,所述分词为使用IK正向迭代最细粒度切分算法将搜索语句拆分成的新的语句;所述衍生词为词根的相关词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110214012.4A CN112883143A (zh) | 2021-02-25 | 2021-02-25 | 一种基于Elasticsearch的数字展会搜索方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110214012.4A CN112883143A (zh) | 2021-02-25 | 2021-02-25 | 一种基于Elasticsearch的数字展会搜索方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112883143A true CN112883143A (zh) | 2021-06-01 |
Family
ID=76054525
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110214012.4A Pending CN112883143A (zh) | 2021-02-25 | 2021-02-25 | 一种基于Elasticsearch的数字展会搜索方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112883143A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116628071A (zh) * | 2023-05-04 | 2023-08-22 | 毕加展览有限公司 | 一种数字化展览管理平台的数据交互方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104572785A (zh) * | 2013-10-29 | 2015-04-29 | 阿里巴巴集团控股有限公司 | 一种分布式创建索引的方法和装置 |
US20150220529A1 (en) * | 2014-02-06 | 2015-08-06 | International Business Machines Corporation | Split elimination in mapreduce systems |
CN110619036A (zh) * | 2019-08-25 | 2019-12-27 | 南京理工大学 | 基于改进if-idf算法的全文检索系统 |
CN111597412A (zh) * | 2020-04-27 | 2020-08-28 | 必圈信息技术(湖北)有限公司 | 一种基于ElasticSearch实现多维度智能搜索相关数据的系统和方法 |
-
2021
- 2021-02-25 CN CN202110214012.4A patent/CN112883143A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104572785A (zh) * | 2013-10-29 | 2015-04-29 | 阿里巴巴集团控股有限公司 | 一种分布式创建索引的方法和装置 |
US20150220529A1 (en) * | 2014-02-06 | 2015-08-06 | International Business Machines Corporation | Split elimination in mapreduce systems |
CN110619036A (zh) * | 2019-08-25 | 2019-12-27 | 南京理工大学 | 基于改进if-idf算法的全文检索系统 |
CN111597412A (zh) * | 2020-04-27 | 2020-08-28 | 必圈信息技术(湖北)有限公司 | 一种基于ElasticSearch实现多维度智能搜索相关数据的系统和方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116628071A (zh) * | 2023-05-04 | 2023-08-22 | 毕加展览有限公司 | 一种数字化展览管理平台的数据交互方法及系统 |
CN116628071B (zh) * | 2023-05-04 | 2023-12-05 | 毕加展览有限公司 | 一种数字化展览管理平台的数据交互方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6502091B1 (en) | Apparatus and method for discovering context groups and document categories by mining usage logs | |
US8209317B2 (en) | Method and apparatus for reconstructing a search query | |
RU2387005C2 (ru) | Способ и система ранжирования объектов на основе отношений внутри типа и между типами | |
CN108304444B (zh) | 信息查询方法及装置 | |
US20140201203A1 (en) | System, method and device for providing an automated electronic researcher | |
Dhulavvagol et al. | Performance analysis of distributed processing system using shard selection techniques on elasticsearch | |
JP2015523659A (ja) | 多言語混合検索方法およびシステム | |
CN102043833A (zh) | 一种基于查询词进行搜索的方法和搜索装置 | |
US20180276264A1 (en) | Index establishment method and device | |
Cacheda et al. | A case study of distributed information retrieval architectures to index one terabyte of text | |
US7765204B2 (en) | Method of finding candidate sub-queries from longer queries | |
CN112100396A (zh) | 一种数据处理方法和装置 | |
CN111475725A (zh) | 用于搜索内容的方法、装置、设备和计算机可读存储介质 | |
CN113297457A (zh) | 一种高精准性的信息资源智能推送系统及推送方法 | |
CN114663164A (zh) | 电商站点推广配置方法及其装置、设备、介质、产品 | |
Rao et al. | Product recommendation system from users reviews using sentiment analysis | |
CN108509449B (zh) | 一种信息处理的方法及服务器 | |
CN112883143A (zh) | 一种基于Elasticsearch的数字展会搜索方法与系统 | |
CN114398883B (zh) | 演示文稿生成方法、装置、计算机可读存储介质及服务器 | |
CN114417179A (zh) | 一种面向大规模知识库群的元搜索引擎处理方法和装置 | |
CN114139040A (zh) | 一种数据存储及查询方法、装置、设备及可读存储介质 | |
JPH11338873A (ja) | 再検索方法及び装置及び再検索プログラムを格納した記憶媒体及び追加検索語候補提示方法及び装置及び追加検索語候補提示プログラムを格納した記憶媒体 | |
CN105159899A (zh) | 一种搜索的方法和装置 | |
CN116738065B (zh) | 一种企业搜索方法、装置、设备及存储介质 | |
Hung et al. | Reorganization of search results based on semantic clustering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210601 |
|
RJ01 | Rejection of invention patent application after publication |