CN116933768A - 一种搜索引擎文档打分方法及系统 - Google Patents
一种搜索引擎文档打分方法及系统 Download PDFInfo
- Publication number
- CN116933768A CN116933768A CN202310875606.9A CN202310875606A CN116933768A CN 116933768 A CN116933768 A CN 116933768A CN 202310875606 A CN202310875606 A CN 202310875606A CN 116933768 A CN116933768 A CN 116933768A
- Authority
- CN
- China
- Prior art keywords
- recall
- score
- area
- document
- dynamic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000011218 segmentation Effects 0.000 claims abstract description 90
- 230000003068 static effect Effects 0.000 claims abstract description 82
- 238000012545 processing Methods 0.000 claims description 23
- 238000001914 filtration Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 235000019633 pungent taste Nutrition 0.000 claims description 10
- 238000013077 scoring method Methods 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000001502 supplementing effect Effects 0.000 description 6
- 238000012937 correction Methods 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 230000000295 complement effect Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种搜索引擎文档打分方法及系统,涉及大数据技术领域。在该方法中,响应于用户搜索引擎的搜索请求,获取召回文档;召回文档为对全部文档进行query召回后得到的文档;创建分数存储空间,并对分数存储空间进行分段,得到静态分段和动态分段,其中,动态分段包括多个动态区域;获取召回文档在静态分段的静态分段分数;基于用户设定的搜索语句和预设的索引规则,得到召回文档在多个动态区域对应的区域分数;将各个动态区域分数相结合,得到动态分段的动态分段分数;将动态分段分数与静态分段分数相结合,得到召回文档分数。实施本申请提供的技术方案,可以全面地对召回文档的分数进行计算,从而有效地提高文档召回率和搜索准确性。
Description
技术领域
本申请涉及大数据技术领域,具体涉及一种搜索引擎文档打分方法及系统。
背景技术
随着互联网技术的不断发展,用户只需要在搜索引擎上输入需要查询的内容的相关语句,搜索引擎便能将搜索得到的相关文档按照优先级顺序进行排序并呈现到用户的眼前。实现的原理便涉及到搜索引擎的文档相关性打分算法。
传统文档相关性打分算法是基于tf-idf系列语料统计类型相关性分值计算模型实现的。而传统的tf-idf算法无法根据搜索词对召回文档进行打分计算,因此,传统的tf-idf算法无法全面地对召回文档的分数进行计算,从而导致文档召回率和搜索准确性变低。
因此,亟需一种搜索引擎文档打分方法来解决当前技术存在的问题。
发明内容
本申请提供了一种搜索引擎文档打分方法及系统,可以全面地对召回文档的分数进行计算,从而有效地提高文档召回率和搜索准确性。
第一方面,本申请提供了一种搜索引擎文档打分方法,所述方法包括:响应于用户搜索引擎的搜索请求,获取召回文档;所述召回文档为对全部文档进行query召回后得到的文档;创建分数存储空间,并对所述分数存储空间进行分段,得到静态分段和动态分段,其中,所述动态分段包括多个动态区域;获取所述召回文档在所述静态分段的静态分段分数;基于用户设定的搜索语句和预设的索引规则,得到所述召回文档在多个所述动态区域对应的区域分数;将各个所述动态区域分数相结合,得到所述动态分段的动态分段分数;将所述动态分段分数与所述静态分段分数相结合,得到召回文档分数。
通过采用上述技术方案,通过创建分数存储空间,并对分数存储空间进行分段,得到静态分段和动态分段,且动态分段包含多个动态区域;从静态分段和动态分段中的各个动态区域等多个角度去计算召回文档得分,可以使得召回文档得分计算更加全面;其中静态分段的分数用于反映召回文档在文档层面的分数,动态分段的分数是基于用户设定的搜索语句和预设的索引规则得到,从而使得计算得到的动态分段的分数与用户查询的相关性更高,使得得到的召回文档分数更加准确,从而有效地提高文档召回率和搜索准确性。
可选的,所述创建分数存储空间,并对所述分数存储空间进行分段,得到静态分段和动态分段,其中,所述动态分段包括多个动态区域,具体包括:创建预设位数的二进制位的分数存储空间;所述分数存储空间包括第一分数存储子空间和第二分数存储子空间;将所述第一分数存储子空间设定为所述静态分段;将所述第二分数存储子空间设定为所述动态分段;对所述动态分段进行打分标识,将所述动态分段划分为多个动态区域;所述动态区域包括库存区域、召回次数区域、召回方式区域、匹配域区域、相关性区域、覆盖度区域、第一预留区域、类目分区域以及第二预留区域;根据多个所述动态区域的权重大小顺序,将所述第二分数存储子空间分配至多个所述动态区域。
通过采用上述技术方案,通过将动态分段划分为库存区域、召回次数区域、召回方式区域、匹配域区域、相关性区域、覆盖度区域、第一预留区域、类目分区域以及第二预留区域等多个动态区域,使得在计算动态分段分数时考虑的因素更加全面,进而使得得到的动态分段分数更加准确;并根据多个动态区域的权重大小顺序,将第二分数存储子空间分配至多个动态区域,从而使得多个动态区域的排布更加合理,且与召回文档相关性越高的动态区域的得分对于召回文档分数影响越大,从而使得动态分段分数的计算更加合理,且召回文档与用户设定的搜索语句相关度更高。
可选的,所述预设的索引规则包括预设的索引结构、预设的第一规则以及预设的第二规则;所述基于用户设定的搜索语句和预设的索引规则,得到所述召回文档在多个所述动态区域对应的区域分数,具体包括:基于用户设定的搜索语句,得到搜索引擎对搜索语句的补召回次数、召回条件、匹配类型以及搜索范围;基于所述预设的第一规则,对所述库存区域进行设定,得到所述库存区域对应的第一区域分数;基于所述补召回次数,计算得到所述召回次数区域对应的第二区域分数;基于所述召回条件,得到所述召回方式区域对应的第三区域分数;基于所述预设的索引结构、所述召回条件、所述匹配类型以及所述搜索范围中的至少一种,得到所述匹配域区域对应的第四区域分数;基于所述预设的索引结构、所述召回条件、所述匹配类型以及所述搜索范围中的至少一种,得到所述相关性区域对应的第五区域分数;基于所述预设的索引结构、所述召回条件、所述匹配类型以及所述搜索范围中的至少一种,得到所述覆盖度区域对应的第六区域分数;基于所述预设的第二规则,对所述第一预留区域、所述类目分区域以及第二预留区域进行设定,得到所述第一预留区域对应的第七区域分数、所述类目分区域对应的第八区域分数以及所述第二预留区域对应的第九区域分数。
通过采用上述技术方案,基于预设的第一规则,得到库存区域对应的分数;基于预设的第二规则,得到第一预留区域、类目分区域以及第二预留区域对应的分数;基于用户设定的搜索语句,得到搜索引擎对搜索语句的补召回次数、召回条件、匹配类型以及搜索范围,并基于搜索引擎对搜索语句的补召回次数、召回条件、匹配类型以及搜索范围中的至少一种,得到召回次数区域、召回方式区域、匹配域区域、相关性区域、覆盖度区域等动态区域对应的分数,从而使得召回次数区域、召回方式区域、匹配域区域、相关性区域、覆盖度区域等动态区域对应的分数在计算过程中考虑的因素更加全面,从而使得动态分段的分数更加准确。
可选的,所述基于所述召回条件,得到所述召回方式区域对应的第三区域分数,具体包括:当所述召回条件为or召回时,将所述召回方式区域对应的第三区域分数设定为0分;当所述召回条件为and召回时,将所述召回方式区域对应的第三区域分数设定为1分。
通过采用上述技术方案,由于and召回会召回包含所有查询词项的文档会被召回,而不会返回任何缺少其中一个或多个查询词项的文档。而or召回在搜索过程中,只要文档包含查询中的任意一个指定词项,就会被召回。因此,当召回条件为and召回时,召回的文档能够更加符合用户的搜索语句。因此,当召回方式为and召回时,将召回方式区域对应的第三区域分数设定为1分;当召回方式为or召回时,将召回方式区域对应的第三区域分数设定为0分,从而使得召回方式区域对应的分数设定更加合理。
可选的,所述基于所述预设的索引结构、所述召回条件、所述匹配类型以及所述搜索范围中的至少一种,得到所述匹配域区域对应的第四区域分数,具体包括:当所述预设的索引结构为倒排且用户设定的搜索条件为纯过滤时,将所述匹配域区域对应的第四区域分数设定为0分;当所述预设的索引结构为倒排,所述匹配类型为单term,所述召回条件为and召回,且所述搜索范围为单域时,将所述匹配域区域对应的第四区域分数设定为文档对应域的权重得分;当所述预设的索引结构为倒排,所述匹配类型为多term,所述召回条件为and召回,且所述搜索范围为单域时,将所述匹配域区域对应的第四区域分数设定为文档对应域的权重得分;当所述预设的索引结构为倒排,所述匹配类型为多term,所述召回条件为and召回,且所述搜索范围为跨域时,将所述匹配域区域对应的第四区域分数设定为0分;当所述预设的索引结构为倒排且所述召回条件为or召回时,将文档查询域命中token的个数设定为所述匹配域区域对应的第四区域分数;当所述预设的索引结构为位图时,将所述匹配域区域对应的第四区域分数设定为0分。
通过采用上述技术方案,通过将多种类型的索引结构、召回条件、匹配类型以及搜索范围进行组合,对应得到匹配域区域对应的第四区域分数,从而使得匹配域区域对应的第四区域分数设定更加全面且合理。
可选的,所述基于所述预设的索引结构、所述召回条件、所述匹配类型以及所述搜索范围中的至少一种,得到所述相关性区域对应的第五区域分数,具体包括:当所述预设的索引结构为倒排且用户设定的搜索条件为纯过滤时,将所述相关性区域对应的第五区域分数设定为7分;当所述预设的索引结构为倒排,所述匹配类型为单term,所述召回条件为and召回,且所述搜索范围为单域时,将所述相关性区域对应的第五区域分数设定为7分;当所述预设的索引结构为倒排,所述匹配类型为多term,所述召回条件为and召回,且所述搜索范围为单域时,基于用户设定的搜索语句与文档的词序和词距,得到所述相关性区域对应的第五区域分数;当所述预设的索引结构为倒排,所述匹配类型为多term,所述召回条件为and召回,且所述搜索范围为跨域时,将token命中域权重值的平均值设定为所述相关性区域对应的第五区域分数;当所述预设的索引结构为倒排且所述召回条件为or召回时,将token命中域权重值的平均值设定为所述相关性区域对应的第五区域分数;当所述预设的索引结构为位图时,将所述相关性区域对应的第五区域分数设定为0分。
通过采用上述技术方案,通过将多种类型的索引结构、召回条件、匹配类型以及搜索范围进行组合,对应得到相关性区域对应的第五区域分数,从而使得相关性区域对应的第五区域分数设定更加全面且合理。
可选的,所述基于所述预设的索引结构、所述召回条件、所述匹配类型以及所述搜索范围中的至少一种,得到所述覆盖度区域对应的第六区域分数,具体包括:当所述预设的索引结构为倒排且用户设定的搜索条件为纯过滤时,将所述覆盖度区域对应的第六区域分数设定为5分;当所述预设的索引结构为倒排,所述匹配类型为单term,所述召回条件为and召回,且所述搜索范围为单域时,将基于用户设定的搜索语句与搜索引擎召回层的配置文件得到的分数设定为所述覆盖度区域对应的第六区域分数;当所述预设的索引结构为倒排,所述匹配类型为多term,所述召回条件为and召回,且所述搜索范围为单域时,将基于用户设定的搜索语句与搜索引擎召回层的配置文件得到的分数设定为所述覆盖度区域对应的第六区域分数;当所述预设的索引结构为倒排,所述匹配类型为多term,所述召回条件为and召回,且所述搜索范围为跨域时,将所述覆盖度区域对应的第六区域分数设定为0分;当所述预设的索引结构为倒排且所述召回条件为or召回时,将所述覆盖度区域对应的第六区域分数设定为0分;当所述预设的索引结构为位图时,将所述覆盖度区域对应的第六区域分数设定为1分。
通过采用上述技术方案,通过将多种类型的索引结构、召回条件、匹配类型以及搜索范围进行组合,对应得到覆盖度区域对应的第六区域分数,从而使得覆盖度区域对应的第六区域分数设定更加全面且合理。
可选的,所述获取所述召回文档在所述静态分段的静态分段分数,具体包括:基于所述召回文档的时间相关特征,计算所述召回文档的时效性得分;基于所述召回文档的文档热度,计算所述召回文档的热度得分;基于词频算法,对所述召回文档中的关键词进行加权,得到词频加权得分;将所述时效性得分、所述热度得分以及所述词频加权得分进行加权组合,得到所述召回文档的静态分数;将所述召回文档的静态分数作为所述静态分段的静态分段分数。
通过采用上述技术方案,通过基于召回文档的时效性和文档热度计算召回文档的静态分数,从而使得召回文档的静态分数计算更加符合文档的自身特性。
可选的,所述将各个所述动态区域分数相结合,得到所述动态分段的动态分段分数,具体包括:将各个所述动态区域对应的区域分数扩充为预设位数的二进制位分数;将各个所述动态区域对应的预设位数的二进制位分数通过按位或运算,得到所述动态分段分数。
通过采用上述技术方案,通过将多个动态区域的分数扩充为预设位数的二进制分数,并通过按位或的计算方式,将多个动态区域的分数进行相加,得到动态分段分数,从而使得动态分段分数的分值结果显示更加直观。
可选的,所述将所述动态分段分数与所述静态分段分数相结合,得到召回文档分数,具体包括:将所述静态分段分数扩充为预设位数的二进制位分数;将所述动态分段分数与所述静态分段分数通过按位或运算,得到召回文档分数。
通过采用上述技术方案,通过将静态分段分数扩充为预设位数的二进制位分数,并通过按位或的计算方式,将动态分段分数与静态分段分数进行相加,最终得到召回文档分数,从而使得召回文档分数的分值结果显示更加直观。
在本申请的第二方面提供了一种搜索引擎文档打分系统,所述系统包括:文档召回模块、处理模块、获取模块以及分数计算模块;所述文档召回模块,用于响应于用户搜索引擎的搜索请求,获取召回文档;所述召回文档为对全部文档进行query召回后得到的文档;所述处理模块,用于创建分数存储空间,并对所述分数存储空间进行分段,得到静态分段和动态分段,其中,所述动态分段包括多个动态区域;所述获取模块,用于获取所述召回文档在所述静态分段的静态分段分数;所述分数计算模块,用于基于用户设定的搜索语句和预设的索引规则,得到所述召回文档在多个所述动态区域对应的区域分数;所述处理模块,还用于将各个所述动态区域分数相结合,得到所述动态分段的动态分段分数;所述处理模块,还用于将所述动态分段分数与所述静态分段分数相结合,得到召回文档分数。
在本申请的第三方面提供了一种电子设备,包括处理器、存储器、用户接口及网络接口,所述存储器用于存储指令,所述用户接口和网络接口用于给其他设备通信,所述处理器用于执行所述存储器中存储的指令,以使所述电子设备执行如本申请第一方面任意一项所述的方法。
在本申请的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有能够被处理器加载并执行如本申请第一方面任意一项所述的方法的计算机程序。
综上所述,本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
1、通过创建分数存储空间,并对分数存储空间进行分段,得到静态分段和动态分段,且动态分段包含多个动态区域;从静态分段和动态分段中的各个动态区域等多个角度去计算召回文档得分,可以使得召回文档得分计算更加全面;其中静态分段的分数用于反映召回文档在文档层面的分数,动态分段的分数是基于用户设定的搜索语句和预设的索引规则得到,从而使得计算得到的动态分段的分数与用户查询的相关性更高,使得得到的召回文档分数更加准确,从而有效地提高文档召回率和搜索准确性。
2、通过将动态分段划分为库存区域、召回次数区域、召回方式区域、匹配域区域、相关性区域、覆盖度区域、第一预留区域、类目分区域以及第二预留区域等多个动态区域,使得在计算动态分段分数时考虑的因素更加全面,进而使得得到的动态分段分数更加准确;并根据多个动态区域的权重大小顺序,将第二分数存储子空间分配至多个动态区域,从而使得多个动态区域的排布更加合理,且与召回文档相关性越高的动态区域的得分对于召回文档分数影响越大,从而使得动态分段分数的计算更加合理,且召回文档与用户设定的搜索语句相关度更高。
3、基于预设的第一规则,得到库存区域对应的分数;基于预设的第二规则,得到第一预留区域、类目分区域以及第二预留区域对应的分数;基于用户设定的搜索语句,得到搜索引擎对搜索语句的补召回次数、召回条件、匹配类型以及搜索范围,并基于搜索引擎对搜索语句的补召回次数、召回条件、匹配类型以及搜索范围中的至少一种,得到召回次数区域、召回方式区域、匹配域区域、相关性区域、覆盖度区域等动态区域对应的分数,从而使得召回次数区域、召回方式区域、匹配域区域、相关性区域、覆盖度区域等动态区域对应的分数在计算过程中考虑的因素更加全面,从而使得动态分段的分数更加准确。
4、通过将静态分段分数扩充为预设位数的二进制位分数,并通过按位或的计算方式,将动态分段分数与静态分段分数进行相加,最终得到召回文档分数,从而使得召回文档分数的分值结果显示更加直观。
附图说明
图1是本申请实施例提供的一种搜索引擎文档打分方法的流程示意图之一;
图2是本申请实施例提供的一种搜索引擎文档打分方法的流程示意图之二;
图3是本申请实施例提供的一种召回文档分数存储空间优选分配方式示意图;
图4是本申请实施例提供的一种企业查询过滤条件设定示意图;
图5是本申请实施例提供的一种搜索引擎文档打分系统的结构示意图;
图6是本申请实施例公开的一种电子设备的结构示意图。
附图标记说明:1、文档召回模块;2、处理模块;3、获取模块;4、分数计算模块;600、电子设备;601、处理器;602、通信总线;603、用户接口;604、网络接口;605、存储器。
具体实施方式
为了使本领域的技术人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。
在本申请实施例的描述中,“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。
在本申请实施例的描述中,术语“多个”的含义是指两个或两个以上。例如,多个系统是指两个或两个以上的系统,多个屏幕终端是指两个或两个以上的屏幕终端。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本申请提供了一种搜索引擎文档打分方法,参照图1,其示出了本申请实施例提供的一种搜索引擎文档打分方法的流程示意图之一。该方法包括步骤S11-S16,上述步骤如下:
步骤S11:响应于用户搜索引擎的搜索请求,获取召回文档;召回文档为对全部文档进行query召回后得到的文档。
在上述步骤中,服务器响应于用户搜索引擎的搜索请求,获取召回文档;召回文档为对全部文档进行query召回后得到的文档。
具体来说,在本技术方案中,本申请方案的搜索引擎文档打分方法优选应用于垂直领域的相关搜索,垂直领域的相关搜索即有针对性地为某一特定领域、某一特定人群或某一特定需求提供有专门的信息检索服务,垂直搜索是通过对专业特定的领域或行业的内容进行专业和深入的分析挖掘、过滤筛选,信息定位更精准的专业搜索。
搜索引擎分为召回层和引擎层。召回层主要通过召回服务,负责从庞大的文档集合中快速检索和召回与用户查询相关的候选文档。它通常是搜索引擎的第一步,目标是尽可能高效地筛选出与用户查询相关的文档,以便后续进行进一步的处理和排序。引擎层是搜索引擎的核心部分,负责对召回集中的候选文档进行进一步的处理、排序和排名,以确定最终的搜索结果顺序。引擎层的目标是根据文档与用户查询的相关性进行打分,并将得分较高的文档排在搜索结果的前面,以提供更相关和有价值的搜索结果。
在步骤S11中,当用户在搜索引擎中提交搜索请求时,召回层会对全部文档进行查询召回(query recall)操作,即进行query召回,以获取与用户查询相关的多个召回文档。召回文档是指在查询召回阶段,根据用户查询条件和搜索算法,从全文档集合中筛选出与查询相关的一部分文档。这个召回过程的目标是尽可能捕捉到与用户查询相关的文档,以确保后续的处理和排名阶段能够涵盖用户可能感兴趣的内容。
步骤S12:创建分数存储空间,并对分数存储空间进行分段,得到静态分段和动态分段,其中,动态分段包括多个动态区域。
在上述步骤中,服务器创建分数存储空间,并对分数存储空间进行分段,得到静态分段和动态分段,其中,动态分段包括多个动态区域。
在一种可能的实施方式中,参照图2,其示出了本申请实施例提供的一种搜索引擎文档打分方法的流程示意图之二。步骤S12具体包括步骤S21-S25:
步骤S21:创建预设位数的二进制位的分数存储空间;分数存储空间包括第一分数存储子空间和第二分数存储子空间。
在上述步骤中,服务器创建预设位数的二进制位的分数存储空间;分数存储空间包括第一分数存储子空间和第二分数存储子空间。
具体来说,在本技术方案中,预设位数优选为64位,即服务器创建一个64位二进制位的分数存储空间。因此召回文档分数优选为一个64位long类型二进制位分数。第一分数存储子空间优选占用位数为第1位至第20位;第二分数存储子空间优选占用位数为第21位至第63位。第64位作为标志位,可自定义赋值其他高权重字段或域,也可由服务器或用户自定义意义。
步骤S22:将第一分数存储子空间设定为静态分段。
在上述步骤中,服务器将第一分数存储子空间设定为静态分段。
具体来说,在本技术方案中,静态分段优选为第1位至第20位。
步骤S23:将第二分数存储子空间设定为动态分段。
在上述步骤中,服务器将第二分数存储子空间设定为动态分段。
具体来说,在本技术方案中,动态分段优选为第21位至第63位。
步骤S24:对动态分段进行打分标识,将动态分段划分为多个动态区域;动态区域包括库存区域、召回次数区域、召回方式区域、匹配域区域、相关性区域、覆盖度区域、第一预留区域、类目分区域以及第二预留区域。
在上述步骤中,服务器对动态分段进行打分标识,将动态分段划分为多个动态区域。
具体来说,在本技术方案中,
库存区域、召回次数区域、召回方式区域、匹配域区域、相关性区域、覆盖度区域、第一预留区域、类目分区域以及第二预留区域总共占用第21位至第63位存储空间。
步骤S25:根据多个动态区域的权重大小顺序,将第二分数存储子空间分配至多个动态区域。
在上述步骤中,服务器根据多个动态区域的权重大小顺序,将第二分数存储子空间分配至多个动态区域。
具体来说,在本技术方案中,动态区域的权重大小顺序决定了动态区域的排列顺序,排位越靠前的动态区域,对应的分值即更加重要。最终对召回文档按照分数从高至低进行排序时,以提供用户更相关和有价值的搜索结果,因此对召回文档相关度和价值影响更大的动态区域计算的得分越高,则整体召回文档的得分越高,排序也将更加靠前。优选的从高至低的排列顺序为库存区域、召回次数区域、召回方式区域、匹配域区域、相关性区域、覆盖度区域、第一预留区域、类目分区域以及第二预留区域。
参照图3,其示出了本申请实施例提供的一种召回文档分数存储空间优选分配方式示意图。其中,在步骤S205中,如图3所示,将第二分数存储子空间分配至多个动态区域,分配方法优选为,将第63位二进制位分配至库存区域;将第62位二进制位到第60位二进制位分配至召回次数区域;将第59位二进制位到第57位二进制位分配至召回方式区域;将第56位二进制位到第53位二进制位分配至匹配域区域;将第52位二进制位到第49位二进制位分配至相关性区域;将第48位二进制位到第45位二进制位分配至覆盖度区域;将第44位二进制位到第37位二进制位分配至第一预留区域;将第36位二进制位到第33位二进制位分配至类目分区域;将第32位二进制位到第21位二进制位分配至第二预留区域。
步骤S13:获取召回文档在静态分段的静态分段分数。
在上述步骤中,服务器获取召回文档在静态分段的静态分段分数。
在一种可能的实施方式中,步骤S13具体包括如下步骤:
基于召回文档的时间相关特征,计算召回文档的时效性得分;基于召回文档的文档热度,计算召回文档的热度得分;基于词频算法,对召回文档中的关键词进行加权,得到词频加权得分;将时效性得分、热度得分以及词频加权得分进行加权组合,得到召回文档的静态分数;将召回文档的静态分数作为静态分段的静态分段分数。
具体来说,在本技术方案中,服务器将根据每个召回文档的时间相关特征(如发布时间、更新时间等),计算一个时效性得分。较新的召回文档具有更高的时效性得分。基于召回文档的热度特征(如点击量、浏览量、分享次数等),计算一个热度得分。较热门的文档具有更高的热度得分。对于召回文档中的关键词,可以使用词频算法(如TF-IDF算法)对其进行加权计算。词频算法可以帮助衡量关键词在文档中的重要性,频率较高的关键词具有更高的加权得分。再将时效性得分、热度得分以及词频加权得分进行加权组合,得到召回文档的静态分数。最终将召回文档的静态分数作为静态分段的静态分段分数。计算时效性得分和热度得分的方法在本申请中不进行过多限定。
步骤S14:基于用户设定的搜索语句和预设的索引规则,得到召回文档在多个动态区域对应的区域分数。
在上述步骤中,服务器基于用户设定的搜索语句和预设的索引规则,得到召回文档在多个动态区域对应的区域分数。
在一种可能的实施方式中,步骤S14具体包括步骤S141-S148:
步骤S141:基于用户设定的搜索语句,得到搜索引擎对搜索语句的补召回次数、召回条件、匹配类型以及搜索范围。
具体来说,在本技术方案中,补召回次数为在搜索过程中,召回层基于用户设定的搜索语句,如果搜索结果数量不足或召回不理想,召回层则按照召回方式的设定顺序改变召回方式重新召回。召回方式按照顺序排列包括:原词、降维、改写、纠错、或召回、类目预测。其中,降维、改写、纠错、或召回、类目预测均称为补召回。即默认为采用原词方式召回;若采用原词方式召回结果不理想,则采用降维方式召回;若采用降维方式召回结果不理想,则采用改写方式召回;若采用改写方式召回结果不理想,则采用纠错方式召回;若采用纠错方式召回结果不理想,则采用或召回方式召回;若采用或召回方式召回结果不理想,则采用类目预测方式召回。
召回条件包括and召回和or召回。召回层基于用户设定的搜索语句,确定召回条件采用and召回或是or召回。and召回表示只返回同时包含查询中所有指定词项的文档。只有那些包含所有查询词项的文档会被召回,而不会返回任何缺少其中一个或多个查询词项的文档。or召回表示在搜索过程中,只要文档包含查询中的任意一个指定词项,就会被召回。即使文档中只包含一个查询词项,也会被返回作为搜索结果。
匹配类型包括单term和多term。召回层基于用户设定的搜索语句,确定用户设定的搜索语句是否有多个分词结果,若只有单个分词结果,则确定匹配类型为单term;若有多个分词结果,则确定匹配类型为多term。单term为一种基本的匹配类型,即对单个词项进行匹配的方式。在这种情况下,单term表示匹配类型是以单个词项作为匹配的基本单位。例如,在某个搜索系统中,使用单term作为匹配类型时,系统会将查询中的单个词项与文档进行匹配。多term是指在搜索或查询过程中使用多个查询词项(terms)来构成搜索条件。一个查询词项通常是一个单词或短语,而多term则表示同时使用多个查询词项进行搜索。举例来说,单term搜索:搜索词项为“apple”,则搜索引擎将返回包含词项“apple”的文档。多term搜索:搜索词项为“apple”和“pie”,则搜索引擎将返回同时包含词项“apple”和“pie”的文档。
搜索范围包括单域和跨域。召回层基于用户设定的搜索语句,确定用户设定的搜索语句是否命中召回文档中多个字段。若未命中召回文档中多个字段,则确定搜索范围为单term;若命中召回文档中多个字段,则确定搜索范围为单term。
步骤S142:基于预设的第一规则,对库存区域进行设定,得到库存区域对应的第一区域分数。
具体来说,在本技术方案中,库存区域为自定义最高权重区域,即强制将某个召回文档排序至最前的顺序。因此,预设的第一规则优选为获取需要排序至最前的召回文档,并设置其库存区域对应的第一区域分数。召回文档默认库存区域对应的第一区域分数为空。
步骤S143:基于补召回次数,计算得到召回次数区域对应的第二区域分数。
具体来说,在本技术方案中,引擎层将基于补召回次数对召回次数区域进行打分,即得到召回次数区域对应的第二区域分数。由于召回的文档的补召回次数越少,则越符合用户设定的搜索语句。因此,补召回次数越少,召回文档的对应召回次数区域对应的第二区域分数越高。如前述实施例中,召回次数区域为第62位二进制位到第60位二进制位,因此召回次数区域优选对应的最大的二进制分值为111,即对应的最大的十进制分值为7。若召回方式为原词,则补召回次数为0,召回次数区域对应的第二区域十进制分数为7-0=7分;若召回方式为降维,则补召回次数为1,召回次数区域对应的第二区域十进制分数为7-1=6分;若召回方式为改写,则补召回次数为2,召回次数区域对应的第二区域十进制分数为7-2=5分;若召回方式为纠错,则补召回次数为3,召回次数区域对应的第二区域十进制分数为7-3=4分;若召回方式为或召回,则补召回次数为4,召回次数区域对应的第二区域十进制分数为7-4=3分;若召回方式为类目预测,则补召回次数为5,召回次数区域对应的第二区域十进制分数为7-5=2分。再将上述十进制分数转换为二进制对应的分数。
步骤S144:基于召回条件,得到召回方式区域对应的第三区域分数。
在一种可能的实施方式中,步骤S144具体包括如下步骤:
当召回条件为or召回时,将召回方式区域对应的第三区域分数设定为0分;当召回条件为and召回时,将召回方式区域对应的第三区域分数设定为1分。
具体来说,在本技术方案中,当召回条件为or召回时,召回层将召回方式区域对应的第三区域分数设定为0分;当召回条件为and召回时,召回层将召回方式区域对应的第三区域分数设定为1分。如前述实施例中,由于and召回会召回包含所有查询词项的文档会被召回,而不会返回任何缺少其中一个或多个查询词项的文档。而or召回在搜索过程中,只要文档包含查询中的任意一个指定词项,就会被召回。因此,当召回条件为and召回时,召回的文档能够更加符合用户的搜索语句。因此,当召回方式为and召回时,则召回方式区域对应的第三区域分数1分;当召回方式为or召回时,则召回方式区域对应的第三区域分数0分。采用and召回对应的文档的第三区域分数大于采用or召回对应的文档的第三区域分数。
步骤S145:基于预设的索引结构、召回条件、匹配类型以及搜索范围中的至少一种,得到匹配域区域对应的第四区域分数。
具体来说,在本技术方案中,召回层将基于预设的索引结构、召回条件、匹配类型以及搜索范围中的至少一种,对召回文档动态分段中的匹配域区域进行打分,即得到匹配域区域对应的第四区域分数。匹配域区域的优选分数段为0分至7分。由于匹配域区域表示字段或域的优先级,其中,0分表示最高优先级,7分表示最低优先级。
在一种可能的实施方式中,步骤S145具体包括步骤S1451-S1456:
步骤S1451:当预设的索引结构为倒排且用户设定的搜索条件为纯过滤时,将匹配域区域对应的第四区域分数设定为0分。
具体来说,在本技术方案中,倒排索引是一种将词项与包含该词项的文档进行映射的索引结构。搜索条件为纯过滤是指用户未设定搜索语句,仅设定了过滤条件。参照图4,图4为本申请实施例提供的一种企业查询过滤条件设定示意图。举例来说,以企业查询为例,若用户未设定搜索语句,即用户未设定查询企业的名称;搜索的过滤条件包括但不限于登记状态、成立年限、注册资本、资本类型、组织机构等等,其中,用户设定的过滤条件中,登记状态为续存,成立年限为5-10年,注册资本为5000万以上,资本类型为人民币。即代表用户设定的搜索条件为纯过滤。当搜索条件为纯过滤时,获得的召回文档并非基于用户设定的搜索语句匹配召回得到,因此,当预设的索引结构为倒排且用户设定的搜索条件为纯过滤时,召回层将匹配域区域对应的第四区域分数设定为0分。
步骤S1452:当预设的索引结构为倒排,匹配类型为单term,召回条件为and召回,且搜索范围为单域时,将匹配域区域对应的第四区域分数设定为文档对应域的权重得分。
具体来说,在本技术方案中,当预设的索引结构为倒排,匹配类型为单term,召回条件为and召回,且搜索范围为单域时,召回层将匹配域区域对应的第四区域分数设定为文档对应域的权重得分即将匹配域区域对应的第四区域分数设定为单域对应的区域权重得分。计算单域对应的区域权重得分的方法在本申请中不做过多限定。
步骤S1453:当预设的索引结构为倒排,匹配类型为多term,召回条件为and召回,且搜索范围为单域时,将匹配域区域对应的第四区域分数设定为文档对应域的权重得分。
具体来说,在本技术方案中,当预设的索引结构为倒排,匹配类型为多term,召回条件为and召回,且搜索范围为单域时,召回层将匹配域区域对应的第四区域分数设定为文档对应域的权重得分。
步骤S1454:当预设的索引结构为倒排,匹配类型为多term,召回条件为and召回,且搜索范围为跨域时,召回层将匹配域区域对应的第四区域分数设定为0分。
具体来说,在本技术方案中,当预设的索引结构为倒排,匹配类型为多term,召回条件为and召回,且搜索范围为跨域时,召回层将匹配域区域对应的第四区域分数设定为0分。
步骤S1455:当预设的索引结构为倒排且召回条件为or召回时,将文档查询域命中token的个数设定为匹配域区域对应的第四区域分数;
具体来说,在本技术方案中,当预设的索引结构为倒排且召回条件为or召回时,服务器将获取文档查询域中命中关键词的个数,最大值不超过7。召回层再将命中关键词的个数设定为匹配域区域对应的第四区域分数。
步骤S1456:当预设的索引结构为位图时,将匹配域区域对应的第四区域分数设定为0分。
具体来说,在本技术方案中,位图是一种使用二进制位表示集合或状态的数据结构。在位图中,每个位代表集合中的一个元素或状态,其中1表示元素存在或状态为真,0表示元素不存在或状态为假。当预设的索引结构为位图时,召回层将匹配域区域对应的第四区域分数设定为0分。
步骤S146:基于预设的索引结构、召回条件、匹配类型以及搜索范围中的至少一种,得到相关性区域对应的第五区域分数。
具体来说,在本技术方案中,召回层将基于预设的索引结构、召回条件、匹配类型以及搜索范围中的至少一种,对召回文档动态分段中的相关性区域进行打分,即得到相关性区域对应的第五区域分数。相关性区域的优选分数为1分、2分、3分、4分、7分。相关性区域分值的设定优选为奇数个分值,其中,1分代表最高相关性、2分代表高相关性、3分代表中等相关性、4分代表低相关性、7分代表最低相关性。
在一种可能的实施方式中,步骤S146具体包括步骤S1461-S1466:
步骤S1461:当预设的索引结构为倒排且用户设定的搜索条件为纯过滤时,将相关性区域对应的第五区域分数设定为7分。
具体来说,在本技术方案中,当预设的索引结构为倒排且用户设定的搜索条件为纯过滤时,由于用户未设定搜索语句,即搜索词与召回文档的相关性为最低,因此召回层将相关性区域对应的第五区域分数设定为7分。
步骤S1462:当预设的索引结构为倒排,匹配类型为单term,召回条件为and召回,且搜索范围为单域时,将相关性区域对应的第五区域分数设定为7分。
具体来说,在本技术方案中,当预设的索引结构为倒排,匹配类型为单term,召回条件为and召回,且搜索范围为单域时,由于用户设定的搜索语句仅为单个关键词,且召回文档只有单个区域出现该关键词,因此搜索词与召回文档的相关性为最低,故召回层将相关性区域对应的第五区域分数设定为7分。
步骤S1463:当预设的索引结构为倒排,匹配类型为多term,召回条件为and召回,且搜索范围为单域时,基于用户设定的搜索语句与文档的词序和词距,得到相关性区域对应的第五区域分数。
具体来说,在本技术方案中,当预设的索引结构为倒排,匹配类型为多term,召回条件为and召回,且搜索范围为单域时,服务器将可以通过采用短语匹配算法来检查用户设定的搜索语句中的短语在文档中的匹配位置和距离,以此得到相关性区域对应的第五区域分数。
步骤S1464:当预设的索引结构为倒排,匹配类型为多term,召回条件为and召回,且搜索范围为跨域时,将token命中域权重值的平均值设定为相关性区域对应的第五区域分数。由于具体的设定方法已在步骤S1463的具体实现中进行了解释,故在此不做过多赘述。
具体来说,在本技术方案中,当预设的索引结构为倒排,匹配类型为多term,召回条件为and召回,且搜索范围为跨域时,服务器将根据查询中的关键词或标记在文档中的出现情况,为每个命中的关键词分配权重值,并计算这些关键词权重值的平均值,召回层再将token命中域权重值的平均值设定为相关性区域对应的第五区域分数。
步骤S1465:当预设的索引结构为倒排且召回条件为or召回时,将token命中域权重值的平均值设定为相关性区域对应的第五区域分数。
具体来说,在本技术方案中,当预设的索引结构为倒排且召回条件为or召回时,召回层再将token命中域权重值的平均值设定为相关性区域对应的第五区域分数。
步骤S1466:当预设的索引结构为位图时,将相关性区域对应的第五区域分数设定为0分。
具体来说,在本技术方案中,由于位图缺少位置、字段等信息,所以当预设的索引结构为位图时,此处分值由引擎层计算并赋值,将相关性区域对应的第五区域分数设定为0分。
步骤S147:基于预设的索引结构、召回条件、匹配类型以及搜索范围中的至少一种,得到覆盖度区域对应的第六区域分数。
具体来说,在本技术方案中,召回层将基于预设的索引结构、召回条件、匹配类型以及搜索范围中的至少一种,对召回文档动态分段中的覆盖度区域进行打分,即得到覆盖度区域对应的第五区域分数。覆盖度区域的优选分数为0分、1分、5分,其中,不计算覆盖度即用0分表示,不完全覆盖即用1分表示,完全覆盖即用5分表示。
在一种可能的实施方式中,步骤S147具体包括步骤S1471-S1476:
步骤S1471:当预设的索引结构为倒排且用户设定的搜索条件为纯过滤时,将覆盖度区域对应的第六区域分数设定为5分。
具体来说,在本技术方案中,当预设的索引结构为倒排且用户设定的搜索条件为纯过滤时,得到的召回文档是基于用户设定的筛选条件得到的,因此覆盖度为完全覆盖,因此召回层将覆盖度区域对应的第六区域分数设定为5分。
步骤S1472:当预设的索引结构为倒排,匹配类型为单term,召回条件为and召回,且搜索范围为单域时,将基于用户设定的搜索语句与搜索引擎召回层的配置文件得到的分数设定为覆盖度区域对应的第六区域分数。
具体来说,在本技术方案中,预设的索引结构为倒排,匹配类型为单term,召回条件为and召回,且搜索范围为单域时,召回层将基于用户设定的搜索语句与搜索引擎召回层的配置文件得到的分数设定为覆盖度区域对应的第六区域分数。其中,搜索引擎召回层的配置文件中标记了若干个需要计算覆盖度的字段。举例来说,同样以企业查询为例,搜索引擎召回层的配置文件中的字段包括但不限于企业id号、名字、注册地址、成立年限等。其中,名字字段标记为1,即需要计算覆盖度;其余字段标记为0,即不需要计算覆盖度。如用户设定的搜索语句为xx公司,命中了搜索引擎召回层的配置文件中的名字字段,那则需要计算覆盖度区域的分数,由于召回文档A中保存的名字字段为xx技术有限公司,即用户设定的搜索语句与召回文档A中的字段不完全覆盖,因此召回文档A分数的覆盖度区域对应的第六区域分数为1。同时用户设定的搜索语句命中召回文档B中的注册地址字段,召回文档B中保存的注册地址字段为北京市xx路,即使命中也不计算覆盖度分段,因此该召回文档分数的覆盖度区域对应的第六区域分数为0分。搜索引擎召回层的配置文件可根据实际情况进行具体设定,设定配置文件的方法在本申请中不做过多限定。
步骤S1473:当预设的索引结构为倒排,匹配类型为多term,召回条件为and召回,且搜索范围为单域时,将基于用户设定的搜索语句与搜索引擎召回层的配置文件得到的分数设定为覆盖度区域对应的第六区域分数。
具体来说,在本技术方案中,当预设的索引结构为倒排,匹配类型为多term,召回条件为and召回,且搜索范围为单域时,召回层将基于用户设定的搜索语句与搜索引擎召回层的配置文件得到的分数设定为覆盖度区域对应的第六区域分数。由于具体的设定方法已在步骤S1472的具体实现中进行了解释,故在此不做过多赘述。
步骤S1474:当预设的索引结构为倒排,匹配类型为多term,召回条件为and召回,且搜索范围为跨域时,将覆盖度区域对应的第六区域分数设定为0分。
具体来说,在本技术方案中,当预设的索引结构为倒排,匹配类型为多term,召回条件为and召回,且搜索范围为跨域时,召回层将覆盖度区域对应的第六区域分数设定为0分。
步骤S1475:当预设的索引结构为倒排且召回条件为or召回时,将覆盖度区域对应的第六区域分数设定为0分。
具体来说,在本技术方案中,当预设的索引结构为倒排且召回条件为or召回时,召回层将覆盖度区域对应的第六区域分数设定为0分。
步骤S1476:当预设的索引结构为位图时,将覆盖度区域对应的第六区域分数设定为1分。
具体来说,在本技术方案中,当预设的索引结构为位图时,召回层将覆盖度区域对应的第六区域分数设定为1分。
步骤S148:基于预设的第二规则,对第一预留区域、类目分区域以及第二预留区域进行设定,得到第一预留区域对应的第七区域分数、类目分区域对应的第八区域分数以及第二预留区域对应的第九区域分数。
具体来说,在本技术方案中,第一预留区域、类目分区域以及第二预留区域在默认情况下没有意义,预设的第二规则即自定义规则,开发人员可对第一预留区域、类目分区域以及第二预留区域进行自定义设定,以此对召回分数进行调整,使得召回结果更加准确。举例来说,若用户设定的搜索词语为苹果,召回结果可能包括与苹果水果相关的召回文档,也可能包括与苹果手机相关的召回文档,因此需要对第一预留区域、类目分区域以及第二预留区域进行自定义设定,来设定哪一种召回文档的分数更高,并让其优先显示。
需要说明的是,在步骤S14之后,即在计算得到动态分段中各个动态区域对应的区域分数之后,引擎层将根据实际情况对召回层的打分进行修正,例如取消相关性区域的分数,以使动态区域的分数更加精准。
步骤S15:将各个动态区域分数相结合,得到动态分段的动态分段分数。
在上述步骤中,服务器将各个动态区域分数相结合,得到动态分段的动态分段分数。
在一种可能的实施方式中,步骤S15具体包括如下步骤:
将各个动态区域对应的区域分数扩充为预设位数的二进制位分数;将各个动态区域对应的预设位数的二进制位分数通过按位或运算,得到动态分段分数。
具体来说,在本技术方案中,预设位数优选为64位。将各个动态区域对应的区域分数扩充为预设位数的二进制位分数即将各个动态区域对应的十进制区域分数转换成二进制分数,并扩充至64位的二进制位分数。举例来说,召回文档A召回次数区域对应的第二区域分数为7分,由于召回次数区域所占区域为第62位至第60位,其二进制分数即为111,因此服务器将第1位至第59位、第63位以及第64位全部扩充为0,即得到扩充后的召回次数区域分数为0011100000000000000000000000000000000000000000000000000000000000。召回文档A覆盖度区域对应的第六区域分数为1分,由于覆盖度区域所占区域为第48位至第45位,其二进制分数即为0001,因此服务器将第1位至第44位、第49位至第64位全部扩充为0,即得到扩充后的覆盖度区域分数0000000000000000000100000000000000000000000000000000000000000000。在将各个动态区域的分数扩充至64位之后,服务器再将各个动态区域的64位二进制位分数进行按位或运算,最终得到64位二进制位的动态分段分数。
步骤S16:将动态分段分数与静态分段分数相结合,得到召回文档分数。
在上述步骤中,服务器将动态分段分数与静态分段分数相结合,得到召回文档分数。
在一种可能的实施方式中,步骤S16具体包括如下步骤:
将静态分段分数扩充为预设位数的二进制位分数;将动态分段分数与静态分段分数通过按位或运算,得到召回文档分数。
具体来说,在本技术方案中,由于静态分段分数所占区域为第20位至第1位,因此服务器将将静态分段分数的第21位至第64位全部扩充为0,再将将动态分段分数与静态分段分数通过按位或运算,得到最终的召回文档分数。
参照图5,其示出了本申请实施例提供的一种搜索引擎文档打分系统的结构示意图。系统包括:文档召回模块1、处理模块2、获取模块3以及分数计算模块4;文档召回模块1,用于响应于用户搜索引擎的搜索请求,获取召回文档;召回文档为对全部文档进行query召回后得到的文档;处理模块2,用于创建分数存储空间,并对分数存储空间进行分段,得到静态分段和动态分段,其中,动态分段包括多个动态区域;获取模块3,用于获取召回文档在静态分段的静态分段分数;分数计算模块4,用于基于用户设定的搜索语句和预设的索引规则,得到召回文档在多个动态区域对应的区域分数;处理模块2,还用于将各个动态区域分数相结合,得到动态分段的动态分段分数;处理模块2,还用于将动态分段分数与静态分段分数相结合,得到召回文档分数。
需要说明的是:上述实施例提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置和方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本申请还公开一种电子设备。参照图6,图6是本申请实施例的公开的一种电子设备的结构示意图。该电子设备600可以包括:至少一个处理器601,至少一个网络接口604,用户接口603,存储器605,至少一个通信总线602。
其中,通信总线602用于实现这些组件之间的连接通信。
其中,用户接口603可以包括显示屏(Display)、摄像头(Camera),可选用户接口603还可以包括标准的有线接口、无线接口。
其中,网络接口604可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器601可以包括一个或者多个处理核心。处理器601利用各种接口和线路连接整个服务器内的各个部分,通过运行或执行存储在存储器605内的指令、程序、代码集或指令集,以及调用存储在存储器605内的数据,执行服务器的各种功能和处理数据。可选的,处理器601可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器601可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器601中,单独通过一块芯片进行实现。
其中,存储器605可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器605包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器605可用于存储指令、程序、代码、代码集或指令集。存储器605可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及的数据等。存储器605可选的还可以是至少一个位于远离前述处理器601的存储装置。参照图6,作为一种计算机可读存储介质的存储器605中可以包括操作系统、网络通信模块、用户接口模块以及一种应用程序。
在图6所示的电子设备600中,用户接口603主要用于为用户提供输入的接口,获取用户输入的数据;而处理器601可以用于调用存储器605中存储一种应用程序,当由一个或多个处理器601执行时,使得电子设备600执行如上述实施例中一个或多个的方法。需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必需的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几种实施方式中,应该理解到,所披露的装置,可通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口,装置或单元的间接耦合或通信连接,可以是电性或其他的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储器包括:U盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上者,仅为本公开的示例性实施例,不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰,皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践真理的公开后,将容易想到本公开的其他实施方案。
本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的范围和精神由权利要求限定。
Claims (13)
1.一种搜索引擎文档打分方法,其特征在于,所述方法包括:
响应于用户搜索引擎的搜索请求,获取召回文档;所述召回文档为对全部文档进行query召回后得到的文档;
创建分数存储空间,并对所述分数存储空间进行分段,得到静态分段和动态分段,其中,所述动态分段包括多个动态区域;
获取所述召回文档在所述静态分段的静态分段分数;
基于用户设定的搜索语句和预设的索引规则,得到所述召回文档在多个所述动态区域对应的区域分数;
将各个所述动态区域分数相结合,得到所述动态分段的动态分段分数;
将所述动态分段分数与所述静态分段分数相结合,得到召回文档分数。
2.根据权利要求1所述的方法,其特征在于,所述创建分数存储空间,并对所述分数存储空间进行分段,得到静态分段和动态分段,其中,所述动态分段包括多个动态区域,具体包括:
创建预设位数的二进制位的分数存储空间;所述分数存储空间包括第一分数存储子空间和第二分数存储子空间;
将所述第一分数存储子空间设定为所述静态分段;
将所述第二分数存储子空间设定为所述动态分段;
对所述动态分段进行打分标识,将所述动态分段划分为多个动态区域;所述动态区域包括库存区域、召回次数区域、召回方式区域、匹配域区域、相关性区域、覆盖度区域、第一预留区域、类目分区域以及第二预留区域;
根据多个所述动态区域的权重大小顺序,将所述第二分数存储子空间分配至多个所述动态区域。
3.根据权利要求2所述的方法,其特征在于,所述预设的索引规则包括预设的索引结构、预设的第一规则以及预设的第二规则;所述基于用户设定的搜索语句和预设的索引规则,得到所述召回文档在多个所述动态区域对应的区域分数,具体包括:
基于用户设定的搜索语句,得到搜索引擎对搜索语句的补召回次数、召回条件、匹配类型以及搜索范围;
基于所述预设的第一规则,对所述库存区域进行设定,得到所述库存区域对应的第一区域分数;
基于所述补召回次数,计算得到所述召回次数区域对应的第二区域分数;
基于所述召回条件,得到所述召回方式区域对应的第三区域分数;
基于所述预设的索引结构、所述召回条件、所述匹配类型以及所述搜索范围中的至少一种,得到所述匹配域区域对应的第四区域分数;
基于所述预设的索引结构、所述召回条件、所述匹配类型以及所述搜索范围中的至少一种,得到所述相关性区域对应的第五区域分数;
基于所述预设的索引结构、所述召回条件、所述匹配类型以及所述搜索范围中的至少一种,得到所述覆盖度区域对应的第六区域分数;
基于所述预设的第二规则,对所述第一预留区域、所述类目分区域以及第二预留区域进行设定,得到所述第一预留区域对应的第七区域分数、所述类目分区域对应的第八区域分数以及所述第二预留区域对应的第九区域分数。
4.根据权利要求3所述的方法,其特征在于,所述基于所述召回条件,得到所述召回方式区域对应的第三区域分数,具体包括:
当所述召回条件为or召回时,将所述召回方式区域对应的第三区域分数设定为0分;
当所述召回条件为and召回时,将所述召回方式区域对应的第三区域分数设定为1分。
5.根据权利要求3所述的方法,其特征在于,所述基于所述预设的索引结构、所述召回条件、所述匹配类型以及所述搜索范围中的至少一种,得到所述匹配域区域对应的第四区域分数,具体包括:
当所述预设的索引结构为倒排且用户设定的搜索条件为纯过滤时,将所述匹配域区域对应的第四区域分数设定为0分;
当所述预设的索引结构为倒排,所述匹配类型为单term,所述召回条件为and召回,且所述搜索范围为单域时,将所述匹配域区域对应的第四区域分数设定为文档对应域的权重得分;
当所述预设的索引结构为倒排,所述匹配类型为多term,所述召回条件为and召回,且所述搜索范围为单域时,将所述匹配域区域对应的第四区域分数设定为文档对应域的权重得分;
当所述预设的索引结构为倒排,所述匹配类型为多term,所述召回条件为and召回,且所述搜索范围为跨域时,将所述匹配域区域对应的第四区域分数设定为0分;
当所述预设的索引结构为倒排且所述召回条件为or召回时,将文档查询域命中token的个数设定为所述匹配域区域对应的第四区域分数;
当所述预设的索引结构为位图时,将所述匹配域区域对应的第四区域分数设定为0分。
6.根据权利要求3所述的方法,其特征在于,所述基于所述预设的索引结构、所述召回条件、所述匹配类型以及所述搜索范围中的至少一种,得到所述相关性区域对应的第五区域分数,具体包括:
当所述预设的索引结构为倒排且用户设定的搜索条件为纯过滤时,将所述相关性区域对应的第五区域分数设定为7分;
当所述预设的索引结构为倒排,所述匹配类型为单term,所述召回条件为and召回,且所述搜索范围为单域时,将所述相关性区域对应的第五区域分数设定为7分;
当所述预设的索引结构为倒排,所述匹配类型为多term,所述召回条件为and召回,且所述搜索范围为单域时,基于用户设定的搜索语句与文档的词序和词距,得到所述相关性区域对应的第五区域分数;
当所述预设的索引结构为倒排,所述匹配类型为多term,所述召回条件为and召回,且所述搜索范围为跨域时,将token命中域权重值的平均值设定为所述相关性区域对应的第五区域分数;
当所述预设的索引结构为倒排且所述召回条件为or召回时,将token命中域权重值的平均值设定为所述相关性区域对应的第五区域分数;
当所述预设的索引结构为位图时,将所述相关性区域对应的第五区域分数设定为0分。
7.根据权利要求3所述的方法,其特征在于,所述基于所述预设的索引结构、所述召回条件、所述匹配类型以及所述搜索范围中的至少一种,得到所述覆盖度区域对应的第六区域分数,具体包括:
当所述预设的索引结构为倒排且用户设定的搜索条件为纯过滤时,将所述覆盖度区域对应的第六区域分数设定为5分;
当所述预设的索引结构为倒排,所述匹配类型为单term,所述召回条件为and召回,且所述搜索范围为单域时,将基于用户设定的搜索语句与搜索引擎召回层的配置文件得到的分数设定为所述覆盖度区域对应的第六区域分数;
当所述预设的索引结构为倒排,所述匹配类型为多term,所述召回条件为and召回,且所述搜索范围为单域时,将基于用户设定的搜索语句与搜索引擎召回层的配置文件得到的分数设定为所述覆盖度区域对应的第六区域分数;
当所述预设的索引结构为倒排,所述匹配类型为多term,所述召回条件为and召回,且所述搜索范围为跨域时,将所述覆盖度区域对应的第六区域分数设定为0分;
当所述预设的索引结构为倒排且所述召回条件为or召回时,将所述覆盖度区域对应的第六区域分数设定为0分;
当所述预设的索引结构为位图时,将所述覆盖度区域对应的第六区域分数设定为1分。
8.根据权利要求1所述的方法,其特征在于,所述获取所述召回文档在所述静态分段的静态分段分数,具体包括:
基于所述召回文档的时间相关特征,计算所述召回文档的时效性得分;
基于所述召回文档的文档热度,计算所述召回文档的热度得分;
基于词频算法,对所述召回文档中的关键词进行加权,得到词频加权得分;
将所述时效性得分、所述热度得分以及所述词频加权得分进行加权组合,得到所述召回文档的静态分数;
将所述召回文档的静态分数作为所述静态分段的静态分段分数。
9.根据权利要求1所述的方法,其特征在于,所述将各个所述动态区域分数相结合,得到所述动态分段的动态分段分数,具体包括:
将各个所述动态区域对应的区域分数扩充为预设位数的二进制位分数;
将各个所述动态区域对应的预设位数的二进制位分数通过按位或运算,得到所述动态分段分数。
10.根据权利要求9所述的方法,其特征在于,所述将所述动态分段分数与所述静态分段分数相结合,得到召回文档分数,具体包括:
将所述静态分段分数扩充为预设位数的二进制位分数;
将所述动态分段分数与所述静态分段分数通过按位或运算,得到召回文档分数。
11.一种搜索引擎文档打分系统,其特征在于,所述系统包括:文档召回模块(1)、处理模块(2)、获取模块(3)以及分数计算模块(4);
所述文档召回模块(1),用于响应于用户搜索引擎的搜索请求,获取召回文档;所述召回文档为对全部文档进行query召回后得到的文档;
所述处理模块(2),用于创建分数存储空间,并对所述分数存储空间进行分段,得到静态分段和动态分段,其中,所述动态分段包括多个动态区域;
所述获取模块(3),用于获取所述召回文档在所述静态分段的静态分段分数;
所述分数计算模块(4),用于基于用户设定的搜索语句和预设的索引规则,得到所述召回文档在多个所述动态区域对应的区域分数;
所述处理模块(2),还用于将各个所述动态区域分数相结合,得到所述动态分段的动态分段分数;
所述处理模块(2),还用于将所述动态分段分数与所述静态分段分数相结合,得到召回文档分数。
12.一种电子设备,其特征在于,包括处理器(601)、存储器(605)、用户接口(603)及网络接口(604),所述存储器(605)用于存储指令,所述用户接口(603)和网络接口(604)用于给其他设备通信,所述处理器(601)用于执行所述存储器(605)中存储的指令,以使所述电子设备(600)执行如权利要求1-7任意一项所述的方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有指令,当所述指令被执行时,执行如权利要求1-7任意一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310875606.9A CN116933768A (zh) | 2023-07-14 | 2023-07-14 | 一种搜索引擎文档打分方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310875606.9A CN116933768A (zh) | 2023-07-14 | 2023-07-14 | 一种搜索引擎文档打分方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116933768A true CN116933768A (zh) | 2023-10-24 |
Family
ID=88376758
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310875606.9A Pending CN116933768A (zh) | 2023-07-14 | 2023-07-14 | 一种搜索引擎文档打分方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116933768A (zh) |
-
2023
- 2023-07-14 CN CN202310875606.9A patent/CN116933768A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111460327B (zh) | 兴趣地搜索方法及装置、存储介质、计算机设备 | |
JP2017220205A (ja) | 検索クエリに応答してコンテンツとマッチングしようとする画像を動的にランキングする方法及びシステム | |
CN104221015B (zh) | 图像检索装置、图像检索方法、程序以及计算机可读取的存储介质 | |
CN111143597A (zh) | 图像检索方法、终端及存储装置 | |
CN111651570A (zh) | 文本语句处理方法、装置、电子设备以及存储介质 | |
CN110968765B (zh) | 书籍搜索方法、计算设备及计算机存储介质 | |
JP2017220204A (ja) | 検索クエリに応答してホワイトリストとブラックリストを使用し画像とコンテンツをマッチングする方法及びシステム | |
CN107885875B (zh) | 检索词的同义变换方法、装置及服务器 | |
CN110968664A (zh) | 一种文书检索方法、装置、设备及介质 | |
CN113343012B (zh) | 一种新闻配图方法、装置、设备及存储介质 | |
JP5121872B2 (ja) | 画像検索装置 | |
CN111898378B (zh) | 政企客户的行业分类方法和装置、电子设备、存储介质 | |
CN110990701B (zh) | 书籍搜索方法、计算设备及计算机存储介质 | |
CN106844406B (zh) | 检索方法和检索装置 | |
CN116933130A (zh) | 一种基于大数据的企业行业分类方法、系统、设备及介质 | |
CN109727056B (zh) | 金融机构推荐方法、设备、存储介质及装置 | |
CN116933768A (zh) | 一种搜索引擎文档打分方法及系统 | |
WO2019192122A1 (zh) | 文档主题参数提取方法、产品推荐方法、设备及存储介质 | |
JP6960553B2 (ja) | ブランド辞書作成装置、商品等評価装置、ブランド辞書作成方法及びプログラム | |
CN112861532B (zh) | 地址标准化处理方法、装置、设备及在线搜索系统 | |
CN113868373A (zh) | 一种词云生成方法、装置、电子设备及存储介质 | |
CN107967300B (zh) | 机构名称的检索方法、装置、设备及存储介质 | |
JP5890413B2 (ja) | 多数のデータレコードをサーチする方法及びサーチエンジン | |
CN111159239B (zh) | 搜索方法和设备 | |
JP2019053469A (ja) | データベース生成装置、データベース生成方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |