CN114969310B

CN114969310B - 一种面向多维数据的分段式检索排序系统设计方法

Info

Publication number: CN114969310B
Application number: CN202210632927.1A
Authority: CN
Inventors: 李志昌
Original assignee: Nanjing Yunwen Network Technology Co ltd
Current assignee: Nanjing Yunwen Network Technology Co ltd
Priority date: 2022-06-07
Filing date: 2022-06-07
Publication date: 2024-04-05
Anticipated expiration: 2042-06-07
Also published as: CN114969310A

Abstract

本发明公开了一种面向多维数据的分段式检索排序系统设计方法，借助搜索设计的ES检索引擎、Colbert‑search能力模型内容相关度排序、个性化重排、定制层排序四段分层架构，运用ES检索引擎进行打分逻辑的改造，结合Colbert‑search的重排序以及用户数据、查询信息数据的处理，最后所有的定制规则统一包裹在最后一层的逻辑设计里，将不同维度的逻辑和信息分段处理；搜索效果好，提高了数据质量和用户体验，用户数据和被检索的数据信息库都落到了场景化的结果排序中，符合真实用户的期望序列。

Description

一种面向多维数据的分段式检索排序系统设计方法

技术领域

本发明属于数据检索技术领域，具体涉及一种面向多维数据的分段式检索排序系统设计方法。

背景技术

查询信息的场景在日常系统使用中尤为普遍，对于检索的准确率有着十分强烈的诉求。将搜索结果按照最符合用户期望的序列展示，符合搜索引擎和系统的核心价值。同样在各式各样的行业信息检索中，场景化的结果序列准确对于搜索引擎有着极高的要求，丰富化的个性搜索需要搜索系统和生态设计有相当高的完整度。优质的搜索效果不仅仅会从结果序列的准确性体现，也会在用户的体验感知上得到系统的评价。搜索系统作为最基础的实用功能，但也是最难达到最理想效果的功能，最理想的搜索设计需要做到最理解用户的真实想法。

当前市场上的搜索引擎和搜索设计，均为普适性的搜索，而且和数据自身的关联性不高。这类搜索最明显的特点就是只能应对标题和正文的日常化搜索，一旦面临高强业务，复杂的场景数据就显得非常不准确了。在实际应用和接入的时候，这部分往往达不到使用人群的要求，只能做和底层搜索逻辑一起的定制开发，不仅会影响原有的搜索逻辑，新加入的搜索逻辑效果也无法得到保证。

发明内容

本发明的目的在于提供一种面向多维数据的分段式检索排序系统设计方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种面向多维数据的分段式检索排序系统设计方法，包括如下步骤：

步骤101）数据准备，将检索用到的数据提前加载到内存中；

步骤102）数据改写，使用数据准备拓展模块改写内存中数据；

步骤103）数据预处理，处理用户检索内容；

步骤104）数据预处理改写，改写数据预处理后的对象；

步骤105）构建query，根据数据预处理结果及页面选择的筛选条件，构建query；

步骤106）ES检索，将ES检索引擎传入已构建完成的query，调用云搜索工具封装好的ES接口，召回query；

步骤107）query召回处理，将ES返回的结果进行高亮和基础字段封装处理；

步骤108）引入了语义匹配模型，colbert-search能力模型，将ES返回结果的得分与语义匹配模型得分按比例融合，得到综合得分，再根据综合得分排序；

步骤109）个性化重排序，根据数据的用户行为属性，以及ES检索引擎和colbert-search能力模型融合后的综合得分，判断两篇文档的差异，若差异小于设定值，则判断为相近文档，通过比对数据的用户行为属性给文档加上业务相关比重后再次排序，得到最终检索排序；

步骤110）个性化重排序改写，对所述步骤109）个性化重排序进行改写。

优选的，所述步骤103）中处理用户检索内容包括使用自然语言中的分词能力进行分词、通过同义词对检索内容进行泛化处理。

优选的，所述数据预处理拓展模块用于定制化处理，改写步骤103）数据预处理结果。

优选的，所述步骤109）中数据的用户行为属性包括文档浏览量、点赞点踩量、评论量、分享量、打分量。

优选的，对所述数据的用户行为属性进行比重划分，即对文档浏览量、点赞点踩量、评论量、分享量、打分量进行业务比重的划分，根据比重计算文档得分再次进行排序。

优选的，所述根据比重计算文档得分的公式如下：

其中Score(d)表示文档得分，Score(ES,BS)表示ES检索引擎和colbert-search能力模型融合后的综合得分，k是各文档的数据的用户行为属性占的比重。

优选的，通过配置SEO策略对最终检索排序进行调整，更改最终检索排序。

优选的，所述步骤步骤106）中ES检索使用bm25算法，在bm25的基础上加入sentence-bert模型，将不同的句子输入到sentence-bert模型中，获取到句子的语义表征向量，为了提高检索速度，把这些向量进行保存，每次检索query计算与这些向量的相似度，算法公式如下：

其中，bm表示bm25算法，s表示sentence-bert模型算法，表示bm25算法和sentence-bert模型算法按照公式计算后的得分；/>表示词权重，/>控制非线性词频率归一化，b控制文档长度对于分数的惩罚力度，dl代表文档长度，avgdl代表平均字段长度；/>是词项在文档中的频率；/>表示bm25算法得分与sentence-bert模型算法得分的融合比例；/>表示sentence-bert模型算法得分。

本发明的技术效果和优点：1、搜索效果好：借助检索分层设计，提高了数据质量和用户体验；

2、可拓展性：在用户和场景数据运用到检索逻辑中时，都开放了端口，进行拓展设计，而且不会影响已有的检索设计，做到可延展的效果提升设计；

3、场景化：用户数据和被检索的数据信息库都落到了场景化的结果排序中，符合真实用户的期望序列；

4、重排设计：基础打分模式下，所有的额外规则，都是对得分序列的结果进行重排，基于这层规则，重排设计不会对不同段的规则进行互相干扰，可通过控制变量方法可进行深度调优。

附图说明

图1为本发明的流程图；

图2为本发明的能力模型排序的流程图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是，对于这些实施方式的说明用于帮助理解本发明，但并不构成对本发明的限定。此外，下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供了如图1所示的一种面向多维数据的分段式检索排序系统设计方法，包括如下步骤：

步骤101）数据准备，将检索用到的数据提前加载到内存中；

步骤102）数据改写，使用数据准备拓展模块改写内存中数据；数据准备拓展模块用于定制化改写步骤101）中内存中的值，以提供数据准备改写服务；

步骤103）数据预处理，处理用户检索内容，包括使用自然语言中的分词能力进行分词以及通过同义词对检索内容进行泛化处理；

步骤104）数据预处理改写，通过数据预处理改写模块改写数据预处理后的对象；所述数据预处理改写模块用于定制化处理，改写步骤103）数据预处理结果；以提供数据预处理改写服务；

步骤106）ES检索，将ES检索引擎传入已构建完成的query，调用cloud-search云搜索工具封装好的ES接口，召回query；ES检索融合了bm25算法与sentence-search模型算法，算法公式如下：

其中bm表示bm25算法，s表示sentence-bert模型算法，表示词权重，/>表示控制非线性词频率归一化，b表示控制文档长度对于分数的惩罚力度，dl代表文档长度，avgdl代表平均字段长度；/>是词项在文档中的频率；/>表示bm25算法得分与sentence-bert模型算法得分的融合比例；/>表示sentence-bert模型算法得分。

步骤108）引入了语义匹配模型，colbert-search能力模型，将ES返回结果的得分与语义匹配模型得分按比例融合，得到综合得分，再根据综合得分排序；能力模型的输入包括三个部分：1）查询问题；2）ES检索到的前30篇文档；3）每篇文档的关键词（文档的关键词通过关键词算法抽取得到）；它的输出为：1）30篇文档按得分从大到小的重新排序；2）文档对应的得分；能力模型排序的流程，其中传统检索系统表示ES检索结果，即能力模型的输入，文档排序分为标题排序和段落排序，标题排序指用户检索query与ES检索结果的前30篇文档的标题匹配排序得到的结果，段落排序指用户检索query与ES检索结果的前30篇文档的段落匹配排序得到的结果，标题排序打分结果和段落排序打分结果融合得分排序即为能力模型的输出，最后的综合排序时将ES检索得分与能力模型的输出再综合得分后的排序结果，流程图如图2所示：

步骤109）个性化重排序，根据数据的用户行为属性，用户行为属性包括文档浏览量、点赞点踩量、评论量、分享量、打分量，以及ES检索引擎和colbert-search能力模型融合后的综合得分，判断两篇文档的差异，若差异小于设定值，则判断为相近文档，通过比对数据的用户行为属性给文档加上业务相关比重，即对文档浏览量、点赞点踩量、评论量、分享量、打分量进行业务比重的划分；如A、B两篇文档得分非常相近，可根据业务重新评分，A的浏览量比B浏览量多，那A加上浏览量对应的业务比重，以此类推去比较两个文档的点赞点踩量、评论量、分享量、打分量等属性，得到AB两篇文档各自的业务比重，根据比重代入公式计算文档得分，根据文档得分再次排序，得到最终检索排序；

公式如下：

步骤110）个性化重排序改写，对步骤109）个性化重排序进行算法改写，以提供个性化重排序改写服务。

步骤111）SEO策略，通过配置SEO策略对最终检索排序进行调整，更改最终检索排序。

该方法借助搜索设计的ES检索引擎、colbert-search能力模型内容相关度排序、个性化重排、定制层排序四段分层架构，运用ES检索引擎进行打分逻辑的改造，结合colbert-search的重排序以及用户数据、查询信息数据的处理，最后所有的定制规则统一包裹在最后一层的逻辑设计里，将不同维度的逻辑和信息分段处理；

面向用户和信息数据的分段式搜索可以深入到具体的业务场景里，而且不影响基本的打分排序，同时还可借助策略工具，在不影响检索逻辑的情况下，进行人为的结果排序干预，最终达到用户期望的结果展示序列。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种面向多维数据的分段式检索排序系统设计方法，其特征在于，包括如下步骤：

步骤101）数据准备，将检索用到的数据提前加载到内存中；

步骤103）数据预处理，处理用户检索内容；

步骤104）数据预处理改写，改写数据预处理后的对象；

步骤108）引入了语义匹配模型，Colbert-search能力模型将ES返回结果的得分与语义匹配模型得分按比例融合，得到综合得分，再根据综合得分排序；

步骤109）个性化重排序，根据用户的行为属性数据，以及ES检索引擎和Colbert-search能力模型融合后的综合得分，判断两篇文档的差异，若差异小于设定值，则判断为相近文档，通过比对数据的用户行为属性给文档加上业务相关比重后再次排序，得到最终检索排序；

2.根据权利要求1所述的一种面向多维数据的分段式检索排序系统设计方法，其特征在于：所述步骤103）中处理用户检索内容包括使用自然语言中的分词能力进行分词、通过同义词对检索内容进行泛化处理。

3.根据权利要求1所述的一种面向多维数据的分段式检索排序系统设计方法，其特征在于：所述数据预处理拓展模块用于定制化处理，改写步骤103）数据预处理结果。

4.根据权利要求1所述的一种面向多维数据的分段式检索排序系统设计方法，其特征在于：所述步骤109）中数据的用户行为属性包括文档浏览量、点赞点踩量、评论量、分享量、打分量。

5.根据权利要求4所述的一种面向多维数据的分段式检索排序系统设计方法，其特征在于：对所述数据的用户行为属性进行比重划分，即对文档浏览量、点赞点踩量、评论量、分享量、打分量进行业务比重的划分，根据比重计算文档得分再次进行排序。

6.根据权利要求5所述的一种面向多维数据的分段式检索排序系统设计方法，其特征在于：所述根据比重计算文档得分的公式如下：

；

7.根据权利要求1所述的一种面向多维数据的分段式检索排序系统设计方法，其特征在于：通过配置SEO策略对最终检索排序进行调整，更改最终检索排序。

8.根据权利要求1所述的一种面向多维数据的分段式检索排序系统设计方法，其特征在于：所述步骤步骤106）中ES检索使用bm25算法，在bm25的基础上加入sentence-bert模型，将不同的句子输入到sentence-bert模型中，获取到句子的语义表征向量，为了提高检索速度，把这些向量进行保存，每次检索query计算与这些向量的相似度，算法公式如下：

；

其中，bm表示bm25算法，s表示sentence-bert模型算法，表示bm25算法和sentence-bert模型算法按照公式计算后的得分；/>表示词权重，/>表示控制非线性词频率归一化，b表示控制文档长度对于分数的惩罚力度，dl代表文档长度，avgdl代表平均字段长度；/>是词项在文档中的频率；/>表示bm25算法得分与sentence-bert模型算法得分的融合比例；/>表示sentence-bert模型算法得分。