CN117609318A - 一种评分排序优化方法、装置、设备及存储介质 - Google Patents
一种评分排序优化方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117609318A CN117609318A CN202311645642.2A CN202311645642A CN117609318A CN 117609318 A CN117609318 A CN 117609318A CN 202311645642 A CN202311645642 A CN 202311645642A CN 117609318 A CN117609318 A CN 117609318A
- Authority
- CN
- China
- Prior art keywords
- search
- key fields
- search results
- scores corresponding
- key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000003860 storage Methods 0.000 title claims abstract description 6
- 238000005457 optimization Methods 0.000 title claims description 27
- 238000011867 re-evaluation Methods 0.000 claims abstract description 51
- 238000012546 transfer Methods 0.000 claims description 27
- 238000001914 filtration Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000012163 sequencing technique Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 102100035353 Cyclin-dependent kinase 2-associated protein 1 Human genes 0.000 description 2
- 102100031554 Double C2-like domain-containing protein alpha Human genes 0.000 description 2
- 101000866272 Homo sapiens Double C2-like domain-containing protein alpha Proteins 0.000 description 2
- 241000008357 Okapia johnstoni Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 229920001971 elastomer Polymers 0.000 description 1
- 239000000806 elastomer Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Abstract
本申请公开了一种评分排序优化的方法、装置、设备及存储介质,涉及数据检索技术领域,该方法包括:获取ElasticSearch搜索引擎基于检索字段输出的多个检索结果以及各检索结果对应的评分,检索字段包括多个关键字段,各检索结果对应的评分基于多个关键字段对应的得分确定,关键字段包括:中文关键字段和/或英文关键字段;对于各检索结果对应的评分,将含义相同的中文关键字段以及英文关键字段所对应的得分记作一半,以得到各检索结果对应的重评估评分;基于各检索结果对应的重评估评分进行多个检索结果的排序,以得到评分结果;从而提高了评分结果的准确性。
Description
技术领域
本申请涉及数据检索技术领域,尤其涉及一种评分排序优化方法、装置及设备。
背景技术
Elasticsearch是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便地使大量数据具有搜索、分析和探索的能力。其中,Elasticsearch的实现原理主要分为以下几个步骤,首先用户将数据提交到Elasticsearch数据库中,再通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据,当用户搜索数据的时候根据权重将结果打分排名,再将返回结果呈现给用户。
目前主流的elasticsearch评分机制依赖elasticsearch内置的BM25算法,文档里某个词出现的次数越频繁,文档与这个词越相关,得分越高。评分机制的整个评分过程都是在Elasticsearch内部完成。开发人员只需要在数据创建时,将需要评分的字段类型设置为文本Text类型,进行分词评分,内部评分机制在检索时就会将分数高的数据默认优先展示。但是,现有技术在排序结果的准确性上仍不理想。
发明内容
有鉴于此,本申请的主要目的在于提供一种评分排序优化方法、装置、设备及存储介质,目的在于实现提高评估的准确性。
本申请第一方面提供了一种评分排序优化方法,该方法包括:
获取ElasticSearch搜索引擎基于检索字段输出的多个检索结果以及各检索结果对应的评分,检索字段包括多个关键字段,各检索结果对应的评分基于多个关键字段对应的得分确定,关键字段包括:中文关键字段和/或英文关键字段;
对于各检索结果对应的评分,将含义相同的中文关键字段以及英文关键字段所对应的得分记作一半,以得到各检索结果对应的重评估评分;
基于各检索结果对应的重评估评分进行多个检索结果的排序,以得到评分结果。
在本申请第一方面的一些实现方式中,该方法还包括:
在评分结果中,过滤掉评分高于上限阈值或低于下限阈值的检索结果。
在本申请第一方面的一些实现方式中,对于各检索结果对应的评分,将含义相同的中文关键字段以及英文关键字段所对应的得分记作一半,包括:
获取关键字段的数据项长度;
当关键字段中的中文关键字段以及英文关键字段的数据项长度均大于零时,对于各检索结果对应的评分,将含义相同的中文关键字段以及英文关键字段所对应的得分记作一半。
在本申请第一方面的一些实现方式中,该方法还包括:
在评分结果中,过滤掉评分结果中未全部包含多个关键字段的检索结果。
在本申请第一方面的一些实现方式中,该方法还包括:
确定多个关键字段在检索字段中的出现顺序,以得到检索字段对应的第一关键字段顺序;确定多个关键字段在各检索结果中的出现顺序,以得到各检索结果对应的第二关键字段顺序。
在本申请第一方面的一些实现方式中,该方法还包括:
在评分结果中,过滤掉第二关键字段顺序与第一关键字段顺序不同的检索结果。
在本申请第一方面的一些实现方式中,基于各检索结果对应的重评估评分进行多个检索结果的排序,包括:
通过转移各检索结果中的多个关键字段,使各检索结果的第二关键字段顺序与第一关键字段顺序相同,并通过记录转移次数得到各检索结果对应的转移次数;
基于各检索结果对应的转移次数以及各检索结果对应的重评估得分进行多个检索结果的排序。
本申请第二方面提供了一种评分排序优化装置,该装置包括:
获取模块,用于获取ElasticSearch搜索引擎基于检索字段输出的多个检索结果以及各检索结果对应的评分,检索字段包括多个关键字段,各检索结果对应的评分基于多个关键字段对应的得分确定,关键字段包括:中文关键字段和/或英文关键字段;
重评估模块,用于对于各检索结果对应的评分,将含义相同的中文关键字段以及英文关键字段所对应的得分记作一半,以得到各检索结果对应的重评估评分;
排序模块,用于基于各检索结果对应的重评估评分进行多个检索结果的排序,以得到评分结果。
本申请第三方面提供了一种评分排序优化设备,其特征在于,设备包括:包括存储器和处理器,处理器用于执行存储器中存储的程序,运行如本申请第一方面所提供的任一项评分排序优化方法。
本申请第四方面提供了一种可读存储介质,其上存储有计算机程序,其特征在于,计算机程序被处理器执行时,实现如本申请第一方面所提供的任一项的评分排序优化方法的各个步骤。
本申请所提供的技术方案具有如下有益效果:
在本申请的实施例中,首先。获取E l ast icSearch搜索引擎基于检索字段输出的多个检索结果以及各检索结果对应的评分,检索字段包括多个关键字段,各检索结果对应的评分基于多个关键字段对应的得分确定,关键字段包括:中文关键字段和/或英文关键字段;然后,对于各检索结果对应的评分,将含义相同的中文关键字段以及英文关键字段所对应的得分记作一半,以得到各检索结果对应的重评估评分;最后,基于各检索结果对应的重评估评分进行多个检索结果的排序,以得到评分结果。可见,本申请考虑到了检索字段中含义相同的中英文关键字段对检索结果评分的影响,并且通过得分减半的方式降低了中英文关键字段对检索结果对应的评分的影响,使得最终排序后生成的评分结果更具准确性。
附图说明
图1为本申请实施例提供的一种评分排序优化方法的流程示意图;
图2为本申请实施例提供的又一种评分排序优化方法的流程示意图;
图3为本申请实施例提供的又一种评分排序优化方法的流程示意图;
图4为本申请实施例提供的又一种评分排序优化方法的流程示意图;
图5为本申请实施例提供的又一种评分排序优化方法的流程示意图;
图6为本申请实施例提供的一种评分排序优化装置的结构示意图;
图7为本申请实施例提供的一种评分排序优化设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等,如果存在是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
相关术语解释:
ElasticSearch:Elasticsearch是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。充分利用Elasticsearch的水平伸缩性,能使数据在生产环境变得更有价值。具体实现原理主要分为以下几个步骤,首先用户将数据提交到Elasticsearch数据库中,再通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据,当用户搜索数据时候,再根据权重将结果排名,打分,再将返回结果呈现给用户。Elasticsearch实例为一个节点,而集群由一个或者多个拥有相同cluster.name配置的节点组成。它们共同承担数据和负载的压力,当有节点加入集群或者从集群中移除节点时,集群将会重新平均分布所有数据。用户可以将请求发送到集群中的任何节点,包括主节点。每个节点都知道任意文档所处的位置,并且能够将用户的请求直接转发到存储我们所需文档的节点。无论用户将请求发送到哪个节点,它都能负责从各个用户所需文档的节点收集数据,并且最终结果返回给客户端。此外,Elasticsearch检索的结果默认是根据相关度打分进行排序,根据分数高低依次排序。得分机制基于词频和逆文档词频的公式,简称TF-IDF公式。
TF-IDF:TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF指的是词频(Term Frequency),IDF指的是逆文本频率指数(Inverse Document Frequency)。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜寻结果中出现的顺序。
OKapiBM25:Okapi BM25,一般简称BM25算法,在20世纪70年代到80年代,由英国一批信息检索领域的计算机科学家发明。这里的BM是“最佳匹配Best Match”的缩写,Okapi是第一个使用这种方法的信息获取系统的名称。在信息检索领域,BM25算法是工程实践中举足轻重的重要的基准预测Baseline算法。
发明人通过研究发现,现有技术的排序结果准确性主要受到检索所用文本中的中英文字段的影响。具体而言,字段检索时可以根据字段的中文名、英文名或者其他属性进行检索,索引字段存储的字段英文名和字段中文名不相等时,Elasticsearch可以根据检索词频率评分,全匹配数据可以优先展示,排序正常展示。发明人发现检索字段可分为四种情况,分别是中英文数据不相等、中英文数据相等、只有英文字段以及只有中文字段。由此,当根据关键字进行检索且检索关键字为中英文字段时,由于部分数据中英文字段储存的内容是一样的,根据关键字分词导致分词频率过高,进而导致评分靠前,检索时按评分排序后,全匹配字段不能排在最前面导致排序不正确。
有鉴于此,本申请提供了一种评分排序优化方法,该方法可以由脚本执行,该脚本可通过基于groovy语言自定义ScriptScore脚本实现,通过嵌入至ElasticSearch搜索引擎获取搜索引擎的输出数据,进而对输出数据进行处理,以实现对引擎搜索结果的评分排序优化。
参见图1所示,本申请实施例提供了一种评分排序优化方法,具体包括以下步骤:
S101:获取ElasticSearch搜索引擎基于检索字段输出的多个检索结果以及各检索结果对应的评分,检索字段包括多个关键字段,各检索结果对应的评分基于多个关键字段对应的得分确定,关键字段包括:中文关键字段和/或英文关键字段。
ElasticSearch搜索引擎指的是一种分布式的搜索和分析引擎,可以对各种类型的数据进行快速的搜索与分析;在本申请的实施例中,搜索引擎可以根据用户输入的检索字段,输出多个与检索字段相关的检索结果,以及各检索结果对应的评分,该评分反映了检索结果与检索字段的相关程度,评分越高则说明相关程度越高。
具体而言,检索字段指的是输入至ElasticSearch搜索引擎的用于检索的文件,可以包括多个关键字段;关键字段指的是检索字段中关键的字段,是检索字段中最重要的部分,决定了检索的主题和范围。该关键字段可以是由中文和/或英文组成,即关键字段包括:中文关键字段和/或英文关键字段;
检索结果指的是ElasticSearch搜索引擎根据检索字段在索引中匹配的文档;检索结果对应的评分指的是ElasticSearch搜索引擎使用例如BM25算法来计算各检索结果的相关性,给每个检索结果评估一个分数,分数越高则说明相关性越高;关键字段对应的得分指的是ElasticSearch搜索引擎在计算各检索结果的相关性的过程中,确定的检索字段中各关键字段对应于检索结果的得分,具体而言,该得分可以是根据关键字段在检索结果中的出现频率等因素计算得到,得分越高则说明关键字段在检索结果中越重要。其中,各检索结果对应的评分可以是各关键字段对应于检索结果的得分的总和。
需要说明的,由于检索字段中的关键字段在ElasticSearch搜索引擎中的数量类型的文本Test类型,该Text类型支持全文检索操作,但不支持在脚本中访问值操作。因此需要对检索字段中的多个关键字段追加keyword,以便脚本能正常访问检索字段中的中英文数据。
S102:对于各检索结果对应的评分,将含义相同的中文关键字段以及英文关键字段所对应的得分记作一半,以得到各检索结果对应的重评估评分。
在本申请的实施例中,含义相同的中文关键字段以及英文关键,指的是在语料库中相等的两个字段,例如“苹果”和“Apple”在语料库是相等的,也就是说,在语料库中“苹果”和“Apple”被视为相同的文本,即,无论在语料库中使用“苹果”还是“Apple”作为关键词,它们都会指向相同的文本内容。可见,本申请是基于语料库确定检索字段中含义相同的中英文关键字段。
检索结果对应的评分是由多个关键字对于检索结果的得分确定的,例如检索结果对应的评分是多个关键字段的得分总和。而对于各个检索结果所得到的评分,如果中文关键字段和英文关键字段的含义相同,那么它们所对应的得分就被记作原来的一半,例如在某个检索结果文档A对应的评分中,“苹果”得分为4,“Apple”得分为4;则在文档A对应的重评估评分中,“苹果”得分为2,“Apple”得分为2,在采用多个关键字段的得分总和的方式确定评分的情况下,重评估后的评分相比于重评估前的评分低了4分。需要说明的是,含义相同的中英文关键字段对应于每个检索结果的得分是不同的,例如在某个文档B中“苹果”得分为6,“Apple”得分为6;则在文档B对应的重评估评分中,“苹果”得分为3,“Apple”得分为3,在采用多个关键字段的得分总和的方式确定评分的情况下,重评估后的评分相比于重评估前的评分低了6分,文档B比文档A所出的2分,可能影响原本排序较低的文档B在后续基于重评估评分重新排序后高于文档A,也就是说,原先较为优先展示的文档A被替换为文档B。
在本申请实施例的一些实现方式中,参见图2所示,对于各检索结果对应的评分,将含义相同的中文关键字段以及英文关键字段所对应的得分记作一半,具体可以包括以下步骤:
S201:获取中文关键字段的数据项长度以及英文关键字段的数据项长度。
在本申请的实施例中,数据项长度指的是关键字段在某个检索结果中对应的数据项的字节数。具体而言,是获取中英文关键字段各自对应于各检索结果的数据项长度,例如中文字段A1在文档Doc1中的数据项长度为52,英文字段A2在文档Doc1中的数据项长度为24;中文字段A1在文档Doc2中的数据项长度为85,英文字段A2在文档Doc2中的数据项长度为54。
S202:当关键字段中的中文关键字段以及英文关键字段的数据项长度均大于零时,对于各检索结果对应的评分,将含义相同的中文关键字段以及英文关键字段所对应的得分记作一半。
在本申请的实施例中,由于关键字段只有在检索结果中存在对应的数据项,即关键字段的数据项长度大于零的时候,ElasticSearch搜索引擎才会为其分配对应的得分。因此,在确定关键字段中的中文关键字段以及英文关键字段的数据项长度均大于零时,再进行后续将含义相同的中文关键字段以及英文关键字段所对应的得分记作一半的步骤,以避免浪费计算资源。
S103:基于各检索结果对应的重评估评分进行多个检索结果的排序,以得到评分结果。
在本申请的实施例中,根据重评估评分的大小对各检索将进行降序排序,即评分越高的检索结果越靠前,以得到评分结果。在该评分结果包括有各检索结果和各检索结果对应的重评估评分。
在图1所示的流程中,首先。获取ElasticSearch搜索引擎基于检索字段输出的多个检索结果以及各检索结果对应的评分,检索字段包括多个关键字段,各检索结果对应的评分基于多个关键字段对应的得分确定,关键字段包括:中文关键字段和/或英文关键字段;然后,对于各检索结果对应的评分,将含义相同的中文关键字段以及英文关键字段所对应的得分记作一半,以得到各检索结果对应的重评估评分;最后,基于各检索结果对应的重评估评分进行多个检索结果的排序,以得到评分结果。可见,本申请考虑到了检索字段中含义相同的中英文关键字段对检索结果评分的影响,具体而言,当根据关键字进行检索时,检索关键字为中英文字段。由于部分数据中英文字段储存的内容是一样的,根据关键字分词导致分词频率过高,进而导致评分靠前,检索时按评分排序后全匹配字段不能排在最前面导致排序不正确。对此,本申请通过得分减半的方式降低了中英文关键字段对检索结果对应评分的影响,使得最终排序后生成的评分结果更具准确性。
参见图3所示,图3为本申请实施例提供的又一种评分排序优化方法的流程示意图,为了提高评分结果的准确性,在图1所示流程的基础上,进一步设计过滤器对评分结果做进一步过滤,具体可以包括以下步骤:
S301:获取ElasticSearch搜索引擎基于检索字段输出的多个检索结果以及各检索结果对应的评分,检索字段包括多个关键字段,各检索结果对应的评分基于多个关键字段对应的得分确定,关键字段包括:中文关键字段和/或英文关键字段。
在本申请的实施例中,S301的具体实施方式与S101相同,本申请在此不做赘述。
S302:对于各检索结果对应的评分,将含义相同的中文关键字段以及英文关键字段所对应的得分记作一半,以得到各检索结果对应的重评估评分;
在本申请的实施例中,S302的具体实施方式与S102相同,本申请在此不做赘述。
S303:基于各检索结果对应的重评估评分进行多个检索结果的排序,以得到评分结果。
在本申请的实施例中,S303的具体实施方式与S103相同,本申请在此不做赘述。
S304:在评分结果中,过滤掉评分高于上限阈值或低于下限阈值的检索结果。
在本申请的实施例中,可以进一步根据评分结果中各检索结果对应的重评估评分决定是否排除某个检索结果。具体而言,设置max_boot参数作为评分的上限阈值,设置min_score参数作为评分的下限阈值,过滤掉评分结果中评分高于max_boot参数或低于min_score参数的数据,以进一步提高评分结果的准确性。
S305:在评分结果中,过滤掉评分结果中未全部包含多个关键字段的检索结果。
在本申请的实施例中,可以进一步设定强制包含的规则过滤评分结果中的检索结果。也就是说,检索结果中必定需要包含检索字段中的多个关键词,以进一步提升评分结果中各检索结果与检索字段的匹配程度。
需要说明的是,S304与S305的执行顺序可以互换,也可以择一执行,均不影响本申请实施例的实现。
在图3所示的流程中,通过在评分结果中,过滤掉评分高于上限阈值或低于下限阈值的检索结果,和/或,过滤掉评分结果中未全部包含多个关键字段的检索结果;对各检索结果做进一步筛选,进而使得最终得到的评分结果更具准确性。
参见图4所示,图4为本申请实施例提供的又一种评分排序优化方法的流程示意图,在图1所示流程的基础上,进一步过滤掉检索结果中多个关键字段的出现顺序与检索字段中多个关键字段的出现顺序不同的检索结果,具体可以包括以下步骤:
S401:获取ElasticSearch搜索引擎基于检索字段输出的多个检索结果以及各检索结果对应的评分,检索字段包括多个关键字段,各检索结果对应的评分基于多个关键字段对应的得分确定,关键字段包括:中文关键字段和/或英文关键字段。
在本申请的实施例中,S401的具体实施方式与S101相同,本申请在此不做赘述。
S402:对于各检索结果对应的评分,将含义相同的中文关键字段以及英文关键字段所对应的得分记作一半,以得到各检索结果对应的重评估评分。
在本申请的实施例中,S402的具体实施方式与S102相同,本申请在此不做赘述。
S403:基于各检索结果对应的重评估评分进行多个检索结果的排序,以得到评分结果。
在本申请的实施例中,S403的具体实施方式与S103相同,本申请在此不做赘述。
S404:确定多个关键字段在检索字段中的出现顺序,以得到检索字段对应的第一关键字段顺序;确定多个关键字段在各检索结果中的出现顺序,以得到各检索结果对应的第二关键字段顺序。
在本申请的实施例中,确定检索字段中多个关键字段的出现顺序作为第一关键字段顺序,确定各检索结果中多个关键字段的出现顺序作为第二关键字段顺序,是为了进一步适应特定场景检索字段与检索结果的匹配程度,例如执行顺序上有较高要求的场景等。需要说明的是。第一关键字段数据是唯一的,而第二关键字段顺序的数量由检索结果的数量决定。
此外,考虑到检索结果中未包含所有关键字段的情况,可不用进行第二关键字段顺序的确定,而优先过滤未包含所有关键字段的检索结果。
需要说明的是,S404的执行顺序可以与S405之前的任意步骤替换,并不影响本申请实施例的实现。
S405:在评分结果中,过滤掉第二关键字段顺序与第一关键字段顺序不同的检索结果。
在本申请的实施例中,过滤掉多个关键字段在检索结果中的出现顺序,与关键字段顺序不同的检索结果,由此得到的评分结果中,各检索结果中关键字段的出现顺序均与检索字段中关键字段的排序顺序相同,与检索字段更加匹配。需要说明的是,确定多个关键字段在检索结果中的出现顺序,可以是通过关键字段在检索结果中第一次出现的顺序确定,抑或者其他确定方式,均不影响本申请实施例的实现。
此外,步骤S405与图2中的S304和/或S305共同执行,且各步骤的执行顺序均不影响本申请实施例的实现。需要说明的是,为避免计算机资源浪费,在执行S305的执行顺序先于S405是较为优选的选择,因为只有在检索结果包括检索字段中各关键字段的基础上,才能得到各检索字段的出现顺序,从而避免浪费计算机资源再去确定第二关键字段顺序。
在图4所示的流程中,通过确定多个关键字段在检索字段中的出现顺序,以得到检索字段对应的第一关键字段顺序;确定多个关键字段在各检索结果中的出现顺序,以得到各检索结果对应的第二关键字段顺序。之后,在评分结果中,过滤掉第二关键字段顺序与第一关键字段顺序不同的检索结果,使得最终得到的评分结果适应于例如高执行顺序要求的特定场景。
参见图5所示,图5为本申请实施例又提供了一种评分排序优化方法的流程示意图,基于第一关键字段顺序以及第二关键字段数据的转移次数,以及重评估得分对各检索结果进行排序,具体可以包括以下步骤:
S501:获取ElasticSearch搜索引擎基于检索字段输出的多个检索结果以及各检索结果对应的评分,检索字段包括多个关键字段,各检索结果对应的评分基于多个关键字段对应的得分确定,关键字段包括:中文关键字段和/或英文关键字段。
在本申请的实施例中,S501的具体实施方式与S101相同,本申请在此不做赘述。
S502:对于各检索结果对应的评分,将含义相同的中文关键字段以及英文关键字段所对应的得分记作一半,以得到各检索结果对应的重评估评分。
在本申请的实施例中,S502的具体实施方式与S102相同,本申请在此不做赘述。
S503:确定多个关键字段在检索字段中的出现顺序,以得到检索字段对应的第一关键字段顺序;确定多个关键字段在各检索结果中的出现顺序,以得到各检索结果对应的第二关键字段顺序。
在本申请的实施例中,S503的具体实施方式与S404相同,本申请在此不做赘述。
S504:通过转移各检索结果中的多个关键字段,使各检索结果的第二关键字段顺序与第一关键字段顺序相同,并通过记录转移次数得到各检索结果对应的转移次数。
在本申请的实施例中,转移检索结果中的多个关键字段是指对检索结果的第二关键字段顺序中的各关键字段进行位置调整,使其与第一关键字段顺序一致。同时,记录各检索结果的第二关键字段顺序达到第一关键字段数据的转移次数,需要说明的是,如果检索结果的第二关键字段顺序在执行S504之前已经与第一关键字段数据相同,则其对应的转移次数是0。
S505:基于各检索结果对应的转移次数以及各检索结果对应的重评估得分进行多个检索结果的排序,以得到评分结果。
在本申请的实施例中,排序方式可以是先基于转移次数排序后,再基于重评估得分进行排序;也可以是先基于重评估得分排序后,再基于转移次数进行排序;需要说明的是,转移次数越低则说明与检索字段的匹配程度越高,重评估得分越高则说明与检索字段的匹配程度越高。
此外,还可以基于转移次数优化重评估得分,以得到优化后的各检索结果对应的重评估得分,例如为不同的转移次数设置不同的得分规则,例如转移次数为0得5分,转移次数为1得4分;又例如划分不同区间,转移次数落入不同区间可获得不同的得分等方式得到转移次数对应的得分。在通过转移次数对应的得分与重评估得分求和得到优化后的重评估得分。需要说明的是,采用其他规则实现基于转移次数优化重评估得分,均不影响本申请实施例的实现。
在图5所示的流程中,在确定各检索结果对应的重评估得分之后,首先,确定多个关键字段在检索字段中的出现顺序,以得到检索字段对应的第一关键字段顺序;确定多个关键字段在各检索结果中的出现顺序,以得到各检索结果对应的第二关键字段顺序;然后,通过转移各检索结果中的多个关键字段,使各检索结果的第二关键字段顺序与第一关键字段顺序相同,并通过记录转移次数得到各检索结果对应的转移次数;最后,基于各检索结果对应的转移次数以及各检索结果对应的重评估得分进行多个检索结果的排序,以得到评分结果。综合转移次数以及重评估评分这两方面对检索结果进行排序,进一步优化排序方案得到更加准确的评分结果。
参见图6所示,图6为本申请实施例提供的一种评分排序优化装置,该装置包括:
获取模块601,用于获取ElasticSearch搜索引擎基于检索字段输出的多个检索结果以及各检索结果对应的评分,检索字段包括多个关键字段,各检索结果对应的评分基于多个关键字段对应的得分确定,关键字段包括:中文关键字段和/或英文关键字段;
重评估模块602,用于对于各检索结果对应的评分,将含义相同的中文关键字段以及英文关键字段所对应的得分记作一半,以得到各检索结果对应的重评估评分;
排序模块603,用于基于各检索结果对应的重评估评分进行多个检索结果的排序,以得到评分结果。
在本申请实施例的一些实现方式中,该装置还包括:
第一过滤模块,用于在评分结果中,过滤掉评分高于上限阈值或低于下限阈值的检索结果。
在本申请实施例的一些实现方式中,对于各检索结果对应的评分,将含义相同的中文关键字段以及英文关键字段所对应的得分记作一半,包括:
获取关键字段的数据项长度;
当关键字段中的中文关键字段以及英文关键字段的数据项长度均大于零时,对于各检索结果对应的评分,将含义相同的中文关键字段以及英文关键字段所对应的得分记作一半。
在本申请实施例的一些实现方式中,该装置还包括:
第二过滤模块,用于在评分结果中,过滤掉评分结果中未全部包含多个关键字段的检索结果。
在本申请实施例的一些实现方式中,该装置还包括:
顺序确定模块,用于确定多个关键字段在检索字段中的出现顺序,以得到检索字段对应的第一关键字段顺序;确定多个关键字段在各检索结果中的出现顺序,以得到各检索结果对应的第二关键字段顺序。
在本申请实施例的一些实现方式中,该装置还包括:
第三过滤模块,用于在评分结果中,过滤掉第二关键字段顺序与第一关键字段顺序不同的检索结果。
在本申请实施例的一些实现方式中,基于各检索结果对应的重评估评分进行多个检索结果的排序,包括:
通过转移各检索结果中的多个关键字段,使各检索结果的第二关键字段顺序与第一关键字段顺序相同,并通过记录转移次数得到各检索结果对应的转移次数;
基于各检索结果对应的转移次数以及各检索结果对应的重评估得分进行多个检索结果的排序。
如图7所示,本申请实施例还提供了一种设备,包括:存储器701、处理器702;
其中,存储器701用于存储程序;
处理器702用于执行存储器中的程序,以实现本申请实施例所提供评分排序优化方法的各个步骤。
最后,还需要说明的是,在本申请实施例中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种评分排序优化方法,其特征在于,所述方法包括:
获取ElasticSearch搜索引擎基于检索字段输出的多个检索结果以及各检索结果对应的评分,所述检索字段包括多个关键字段,所述各检索结果对应的评分基于所述多个关键字段对应的得分确定,所述关键字段包括:中文关键字段和/或英文关键字段;
对于各所述检索结果对应的评分,将含义相同的所述中文关键字段以及所述英文关键字段所对应的得分记作一半,以得到各检索结果对应的重评估评分;
基于各所述检索结果对应的重评估评分进行所述多个检索结果的排序,以得到评分结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述评分结果中,过滤掉评分高于上限阈值或低于下限阈值的所述检索结果。
3.根据权利要求1所述的方法,其特征在于,所述对于所述各检索结果对应的评分,将含义相同的所述中文关键字段以及所述英文关键字段所对应的得分记作一半,包括:
获取所述关键字段的数据项长度;
当所述关键字段中的所述中文关键字段以及所述英文关键字段的数据项长度均大于零时,对于各所述检索结果对应的评分,将含义相同的所述中文关键字段以及所述英文关键字段所对应的得分记作一半。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述评分结果中,过滤掉所述评分结果中未全部包含所述多个关键字段的所述检索结果。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述多个关键字段在所述检索字段中的出现顺序,以得到所述检索字段对应的第一关键字段顺序;确定所述多个关键字段在各所述检索结果中的出现顺序,以得到各所述检索结果对应的第二关键字段顺序。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
在所述评分结果中,过滤掉所述第二关键字段顺序与所述第一关键字段顺序不同的所述检索结果。
7.根据权利要求5所述的方法,其特征在于,所述基于各所述检索结果对应的重评估评分进行所述多个检索结果的排序,包括:
通过转移各所述检索结果中的所述多个关键字段,使各所述检索结果的所述第二关键字段顺序与所述第一关键字段顺序相同,并通过记录转移次数得到各所述检索结果对应的所述转移次数;
基于各所述检索结果对应的所述转移次数以及各所述检索结果对应的重评估得分进行所述多个检索结果的排序。
8.一种评分排序优化装置,其特征在于,所述装置包括:
获取模块,用于获取ElasticSearch搜索引擎基于检索字段输出的多个检索结果以及各检索结果对应的评分,所述检索字段包括多个关键字段,所述各检索结果对应的评分基于所述多个关键字段对应的得分确定,所述关键字段包括:中文关键字段和/或英文关键字段;
重评估模块,用于对于各所述检索结果对应的评分,将含义相同的所述中文关键字段以及所述英文关键字段所对应的得分记作一半,以得到各检索结果对应的重评估评分;
排序模块,用于基于各所述检索结果对应的重评估评分进行所述多个检索结果的排序,以得到评分结果。
9.一种评分排序优化设备,其特征在于,所述设备包括:包括存储器和处理器,所述处理器用于执行所述存储器中存储的程序,运行如权利要求1至7任一项所述的评分排序优化方法。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的评分排序优化方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311645642.2A CN117609318A (zh) | 2023-12-04 | 2023-12-04 | 一种评分排序优化方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311645642.2A CN117609318A (zh) | 2023-12-04 | 2023-12-04 | 一种评分排序优化方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117609318A true CN117609318A (zh) | 2024-02-27 |
Family
ID=89955988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311645642.2A Pending CN117609318A (zh) | 2023-12-04 | 2023-12-04 | 一种评分排序优化方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117609318A (zh) |
-
2023
- 2023-12-04 CN CN202311645642.2A patent/CN117609318A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7636714B1 (en) | Determining query term synonyms within query context | |
JP4944406B2 (ja) | フレーズに基づく文書説明の生成方法 | |
US7562088B2 (en) | Structure extraction from unstructured documents | |
KR101443475B1 (ko) | 검색 제안 클러스터링 및 프리젠테이션 | |
JP4976666B2 (ja) | 情報検索システムにおけるフレーズ識別方法 | |
US8190601B2 (en) | Identifying task groups for organizing search results | |
KR101120760B1 (ko) | 구조화 문서 검색 | |
JP5175005B2 (ja) | 情報検索システムにおけるフレーズに基づく検索方法 | |
US10169449B2 (en) | Method, apparatus, and server for acquiring recommended topic | |
US20080162455A1 (en) | Determination of document similarity | |
WO2008106667A1 (en) | Searching heterogeneous interrelated entities | |
JP2006048685A (ja) | 情報検索システムにおけるフレーズに基づくインデックス化方法 | |
US20150006528A1 (en) | Hierarchical data structure of documents | |
AU2010274127B2 (en) | Fuzzy proximity boosting and influence kernels | |
Zhang et al. | On-the-fly table generation | |
US20190065502A1 (en) | Providing information related to a table of a document in response to a search query | |
JP5424393B2 (ja) | 単語テーマ関連度算出装置、単語テーマ関連度算出用プログラムおよび情報検索装置 | |
Barrio et al. | Sampling strategies for information extraction over the deep web | |
US11108802B2 (en) | Method of and system for identifying abnormal site visits | |
JP2003173352A (ja) | 検索ログ解析方法および装置、文書情報検索方法および装置、検索ログ解析プログラム、文書情報検索プログラム、および記録媒体 | |
Nguyen et al. | Tag-based paper retrieval: minimizing user effort with diversity awareness | |
CN112835923A (zh) | 一种相关检索方法、装置和设备 | |
Priyadarshini et al. | Semantic retrieval of relevant sources for large scale virtual documents | |
Jain et al. | Organizing query completions for web search | |
CN117609318A (zh) | 一种评分排序优化方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |