CN114969310B - 一种面向多维数据的分段式检索排序系统设计方法 - Google Patents

一种面向多维数据的分段式检索排序系统设计方法 Download PDF

Info

Publication number
CN114969310B
CN114969310B CN202210632927.1A CN202210632927A CN114969310B CN 114969310 B CN114969310 B CN 114969310B CN 202210632927 A CN202210632927 A CN 202210632927A CN 114969310 B CN114969310 B CN 114969310B
Authority
CN
China
Prior art keywords
data
search
score
document
system design
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210632927.1A
Other languages
English (en)
Other versions
CN114969310A (zh
Inventor
李志昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Yunwen Network Technology Co ltd
Original Assignee
Nanjing Yunwen Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Yunwen Network Technology Co ltd filed Critical Nanjing Yunwen Network Technology Co ltd
Priority to CN202210632927.1A priority Critical patent/CN114969310B/zh
Publication of CN114969310A publication Critical patent/CN114969310A/zh
Application granted granted Critical
Publication of CN114969310B publication Critical patent/CN114969310B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向多维数据的分段式检索排序系统设计方法,借助搜索设计的ES检索引擎、Colbert‑search能力模型内容相关度排序、个性化重排、定制层排序四段分层架构,运用ES检索引擎进行打分逻辑的改造,结合Colbert‑search的重排序以及用户数据、查询信息数据的处理,最后所有的定制规则统一包裹在最后一层的逻辑设计里,将不同维度的逻辑和信息分段处理;搜索效果好,提高了数据质量和用户体验,用户数据和被检索的数据信息库都落到了场景化的结果排序中,符合真实用户的期望序列。

Description

一种面向多维数据的分段式检索排序系统设计方法
技术领域
本发明属于数据检索技术领域,具体涉及一种面向多维数据的分段式检索排序系统设计方法。
背景技术
查询信息的场景在日常系统使用中尤为普遍,对于检索的准确率有着十分强烈的诉求。将搜索结果按照最符合用户期望的序列展示,符合搜索引擎和系统的核心价值。同样在各式各样的行业信息检索中,场景化的结果序列准确对于搜索引擎有着极高的要求,丰富化的个性搜索需要搜索系统和生态设计有相当高的完整度。优质的搜索效果不仅仅会从结果序列的准确性体现,也会在用户的体验感知上得到系统的评价。搜索系统作为最基础的实用功能,但也是最难达到最理想效果的功能,最理想的搜索设计需要做到最理解用户的真实想法。
当前市场上的搜索引擎和搜索设计,均为普适性的搜索,而且和数据自身的关联性不高。这类搜索最明显的特点就是只能应对标题和正文的日常化搜索,一旦面临高强业务,复杂的场景数据就显得非常不准确了。在实际应用和接入的时候,这部分往往达不到使用人群的要求,只能做和底层搜索逻辑一起的定制开发,不仅会影响原有的搜索逻辑,新加入的搜索逻辑效果也无法得到保证。
发明内容
本发明的目的在于提供一种面向多维数据的分段式检索排序系统设计方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种面向多维数据的分段式检索排序系统设计方法,包括如下步骤:
步骤101)数据准备,将检索用到的数据提前加载到内存中;
步骤102)数据改写,使用数据准备拓展模块改写内存中数据;
步骤103)数据预处理,处理用户检索内容;
步骤104)数据预处理改写,改写数据预处理后的对象;
步骤105)构建query,根据数据预处理结果及页面选择的筛选条件,构建query;
步骤106)ES检索,将ES检索引擎传入已构建完成的query,调用云搜索工具封装好的ES接口,召回query;
步骤107)query召回处理,将ES返回的结果进行高亮和基础字段封装处理;
步骤108)引入了语义匹配模型,colbert-search能力模型,将ES返回结果的得分与语义匹配模型得分按比例融合,得到综合得分,再根据综合得分排序;
步骤109)个性化重排序,根据数据的用户行为属性,以及ES检索引擎和colbert-search能力模型融合后的综合得分,判断两篇文档的差异,若差异小于设定值,则判断为相近文档,通过比对数据的用户行为属性给文档加上业务相关比重后再次排序,得到最终检索排序;
步骤110)个性化重排序改写,对所述步骤109)个性化重排序进行改写。
优选的,所述步骤103)中处理用户检索内容包括使用自然语言中的分词能力进行分词、通过同义词对检索内容进行泛化处理。
优选的,所述数据预处理拓展模块用于定制化处理,改写步骤103)数据预处理结果。
优选的,所述步骤109)中数据的用户行为属性包括文档浏览量、点赞点踩量、评论量、分享量、打分量。
优选的,对所述数据的用户行为属性进行比重划分,即对文档浏览量、点赞点踩量、评论量、分享量、打分量进行业务比重的划分,根据比重计算文档得分再次进行排序。
优选的,所述根据比重计算文档得分的公式如下:
其中Score(d)表示文档得分,Score(ES,BS)表示ES检索引擎和colbert-search能力模型融合后的综合得分,k是各文档的数据的用户行为属性占的比重。
优选的,通过配置SEO策略对最终检索排序进行调整,更改最终检索排序。
优选的,所述步骤步骤106)中ES检索使用bm25算法,在bm25的基础上加入sentence-bert模型,将不同的句子输入到sentence-bert模型中,获取到句子的语义表征向量,为了提高检索速度,把这些向量进行保存,每次检索query计算与这些向量的相似度,算法公式如下:
其中,bm表示bm25算法,s表示sentence-bert模型算法,表示bm25算法和sentence-bert模型算法按照公式计算后的得分;/>表示词权重,/>控制非线性词频率归一化,b控制文档长度对于分数的惩罚力度,dl代表文档长度,avgdl代表平均字段长度;/>是词项在文档中的频率;/>表示bm25算法得分与sentence-bert模型算法得分的融合比例;/>表示sentence-bert模型算法得分。
本发明的技术效果和优点:1、搜索效果好:借助检索分层设计,提高了数据质量和用户体验;
2、可拓展性:在用户和场景数据运用到检索逻辑中时,都开放了端口,进行拓展设计,而且不会影响已有的检索设计,做到可延展的效果提升设计;
3、场景化:用户数据和被检索的数据信息库都落到了场景化的结果排序中,符合真实用户的期望序列;
4、重排设计:基础打分模式下,所有的额外规则,都是对得分序列的结果进行重排,基于这层规则,重排设计不会对不同段的规则进行互相干扰,可通过控制变量方法可进行深度调优。
附图说明
图1为本发明的流程图;
图2为本发明的能力模型排序的流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。此外,下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供了如图1所示的一种面向多维数据的分段式检索排序系统设计方法,包括如下步骤:
步骤101)数据准备,将检索用到的数据提前加载到内存中;
步骤102)数据改写,使用数据准备拓展模块改写内存中数据;数据准备拓展模块用于定制化改写步骤101)中内存中的值,以提供数据准备改写服务;
步骤103)数据预处理,处理用户检索内容,包括使用自然语言中的分词能力进行分词以及通过同义词对检索内容进行泛化处理;
步骤104)数据预处理改写,通过数据预处理改写模块改写数据预处理后的对象;所述数据预处理改写模块用于定制化处理,改写步骤103)数据预处理结果;以提供数据预处理改写服务;
步骤105)构建query,根据数据预处理结果及页面选择的筛选条件,构建query;
步骤106)ES检索,将ES检索引擎传入已构建完成的query,调用cloud-search云搜索工具封装好的ES接口,召回query;ES检索融合了bm25算法与sentence-search模型算法,算法公式如下:
其中bm表示bm25算法,s表示sentence-bert模型算法,表示词权重,/>表示控制非线性词频率归一化,b表示控制文档长度对于分数的惩罚力度,dl代表文档长度,avgdl代表平均字段长度;/>是词项在文档中的频率;/>表示bm25算法得分与sentence-bert模型算法得分的融合比例;/>表示sentence-bert模型算法得分。
步骤107)query召回处理,将ES返回的结果进行高亮和基础字段封装处理;
步骤108)引入了语义匹配模型,colbert-search能力模型,将ES返回结果的得分与语义匹配模型得分按比例融合,得到综合得分,再根据综合得分排序;能力模型的输入包括三个部分:1)查询问题;2)ES检索到的前30篇文档;3)每篇文档的关键词(文档的关键词通过关键词算法抽取得到);它的输出为:1)30篇文档按得分从大到小的重新排序;2)文档对应的得分;能力模型排序的流程,其中传统检索系统表示ES检索结果,即能力模型的输入,文档排序分为标题排序和段落排序,标题排序指用户检索query与ES检索结果的前30篇文档的标题匹配排序得到的结果,段落排序指用户检索query与ES检索结果的前30篇文档的段落匹配排序得到的结果,标题排序打分结果和段落排序打分结果融合得分排序即为能力模型的输出,最后的综合排序时将ES检索得分与能力模型的输出再综合得分后的排序结果,流程图如图2所示:
步骤109)个性化重排序,根据数据的用户行为属性,用户行为属性包括文档浏览量、点赞点踩量、评论量、分享量、打分量,以及ES检索引擎和colbert-search能力模型融合后的综合得分,判断两篇文档的差异,若差异小于设定值,则判断为相近文档,通过比对数据的用户行为属性给文档加上业务相关比重,即对文档浏览量、点赞点踩量、评论量、分享量、打分量进行业务比重的划分;如A、B两篇文档得分非常相近,可根据业务重新评分,A的浏览量比B浏览量多,那A加上浏览量对应的业务比重,以此类推去比较两个文档的点赞点踩量、评论量、分享量、打分量等属性,得到AB两篇文档各自的业务比重,根据比重代入公式计算文档得分,根据文档得分再次排序,得到最终检索排序;
公式如下:
其中Score(d)表示文档得分,Score(ES,BS)表示ES检索引擎和colbert-search能力模型融合后的综合得分,k是各文档的数据的用户行为属性占的比重。
步骤110)个性化重排序改写,对步骤109)个性化重排序进行算法改写,以提供个性化重排序改写服务。
步骤111)SEO策略,通过配置SEO策略对最终检索排序进行调整,更改最终检索排序。
该方法借助搜索设计的ES检索引擎、colbert-search能力模型内容相关度排序、个性化重排、定制层排序四段分层架构,运用ES检索引擎进行打分逻辑的改造,结合colbert-search的重排序以及用户数据、查询信息数据的处理,最后所有的定制规则统一包裹在最后一层的逻辑设计里,将不同维度的逻辑和信息分段处理;
面向用户和信息数据的分段式搜索可以深入到具体的业务场景里,而且不影响基本的打分排序,同时还可借助策略工具,在不影响检索逻辑的情况下,进行人为的结果排序干预,最终达到用户期望的结果展示序列。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种面向多维数据的分段式检索排序系统设计方法,其特征在于,包括如下步骤:
步骤101)数据准备,将检索用到的数据提前加载到内存中;
步骤102)数据改写,使用数据准备拓展模块改写内存中数据;
步骤103)数据预处理,处理用户检索内容;
步骤104)数据预处理改写,改写数据预处理后的对象;
步骤105)构建query,根据数据预处理结果及页面选择的筛选条件,构建query;
步骤106)ES检索,将ES检索引擎传入已构建完成的query,调用云搜索工具封装好的ES接口,召回query;
步骤107)query召回处理,将ES返回的结果进行高亮和基础字段封装处理;
步骤108)引入了语义匹配模型,Colbert-search能力模型将ES返回结果的得分与语义匹配模型得分按比例融合,得到综合得分,再根据综合得分排序;
步骤109)个性化重排序,根据用户的行为属性数据,以及ES检索引擎和Colbert-search能力模型融合后的综合得分,判断两篇文档的差异,若差异小于设定值,则判断为相近文档,通过比对数据的用户行为属性给文档加上业务相关比重后再次排序,得到最终检索排序;
步骤110)个性化重排序改写,对所述步骤109)个性化重排序进行改写。
2.根据权利要求1所述的一种面向多维数据的分段式检索排序系统设计方法,其特征在于:所述步骤103)中处理用户检索内容包括使用自然语言中的分词能力进行分词、通过同义词对检索内容进行泛化处理。
3.根据权利要求1所述的一种面向多维数据的分段式检索排序系统设计方法,其特征在于:所述数据预处理拓展模块用于定制化处理,改写步骤103)数据预处理结果。
4.根据权利要求1所述的一种面向多维数据的分段式检索排序系统设计方法,其特征在于:所述步骤109)中数据的用户行为属性包括文档浏览量、点赞点踩量、评论量、分享量、打分量。
5.根据权利要求4所述的一种面向多维数据的分段式检索排序系统设计方法,其特征在于:对所述数据的用户行为属性进行比重划分,即对文档浏览量、点赞点踩量、评论量、分享量、打分量进行业务比重的划分,根据比重计算文档得分再次进行排序。
6.根据权利要求5所述的一种面向多维数据的分段式检索排序系统设计方法,其特征在于:所述根据比重计算文档得分的公式如下:
其中Score(d)表示文档得分,Score(ES,BS)表示ES检索引擎和Colbert-search能力模型融合后的综合得分,k是各文档的数据的用户行为属性占的比重。
7.根据权利要求1所述的一种面向多维数据的分段式检索排序系统设计方法,其特征在于:通过配置SEO策略对最终检索排序进行调整,更改最终检索排序。
8.根据权利要求1所述的一种面向多维数据的分段式检索排序系统设计方法,其特征在于:所述步骤步骤106)中ES检索使用bm25算法,在bm25的基础上加入sentence-bert模型,将不同的句子输入到sentence-bert模型中,获取到句子的语义表征向量,为了提高检索速度,把这些向量进行保存,每次检索query计算与这些向量的相似度,算法公式如下:
其中,bm表示bm25算法,s表示sentence-bert模型算法,表示bm25算法和sentence-bert模型算法按照公式计算后的得分;/>表示词权重,/>表示控制非线性词频率归一化,b表示控制文档长度对于分数的惩罚力度,dl代表文档长度,avgdl代表平均字段长度;/>是词项在文档中的频率;/>表示bm25算法得分与sentence-bert模型算法得分的融合比例;/>表示sentence-bert模型算法得分。
CN202210632927.1A 2022-06-07 2022-06-07 一种面向多维数据的分段式检索排序系统设计方法 Active CN114969310B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210632927.1A CN114969310B (zh) 2022-06-07 2022-06-07 一种面向多维数据的分段式检索排序系统设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210632927.1A CN114969310B (zh) 2022-06-07 2022-06-07 一种面向多维数据的分段式检索排序系统设计方法

Publications (2)

Publication Number Publication Date
CN114969310A CN114969310A (zh) 2022-08-30
CN114969310B true CN114969310B (zh) 2024-04-05

Family

ID=82959362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210632927.1A Active CN114969310B (zh) 2022-06-07 2022-06-07 一种面向多维数据的分段式检索排序系统设计方法

Country Status (1)

Country Link
CN (1) CN114969310B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901249A (zh) * 2009-05-26 2010-12-01 复旦大学 一种图像检索中基于文本的查询扩展与排序方法
CN103020164A (zh) * 2012-11-26 2013-04-03 华北电力大学 一种基于多语义分析和个性化排序的语义检索方法
CN103838735A (zh) * 2012-11-21 2014-06-04 大连灵动科技发展有限公司 一种提高检索效率和质量的数据检索方法
WO2017063538A1 (zh) * 2015-10-12 2017-04-20 广州神马移动信息科技有限公司 挖掘相关词的方法、搜索方法、搜索系统
WO2019174132A1 (zh) * 2018-03-12 2019-09-19 平安科技(深圳)有限公司 数据处理方法、服务器及计算机存储介质
CN111061836A (zh) * 2019-12-18 2020-04-24 焦点科技股份有限公司 一种适用于Lucene全文检索引擎的自定义打分方法
CN111625624A (zh) * 2020-05-27 2020-09-04 湖北师范大学 基于bm25+albert模型的伪相关反馈信息检索方法、系统及存储介质
CN114036929A (zh) * 2021-11-22 2022-02-11 江苏科技大学 一种基于多模型特征融合的全简称匹配的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10346494B2 (en) * 2017-04-16 2019-07-09 Radim Rehurek Search engine system communicating with a full text search engine to retrieve most similar documents

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901249A (zh) * 2009-05-26 2010-12-01 复旦大学 一种图像检索中基于文本的查询扩展与排序方法
CN103838735A (zh) * 2012-11-21 2014-06-04 大连灵动科技发展有限公司 一种提高检索效率和质量的数据检索方法
CN103020164A (zh) * 2012-11-26 2013-04-03 华北电力大学 一种基于多语义分析和个性化排序的语义检索方法
WO2017063538A1 (zh) * 2015-10-12 2017-04-20 广州神马移动信息科技有限公司 挖掘相关词的方法、搜索方法、搜索系统
WO2019174132A1 (zh) * 2018-03-12 2019-09-19 平安科技(深圳)有限公司 数据处理方法、服务器及计算机存储介质
CN111061836A (zh) * 2019-12-18 2020-04-24 焦点科技股份有限公司 一种适用于Lucene全文检索引擎的自定义打分方法
CN111625624A (zh) * 2020-05-27 2020-09-04 湖北师范大学 基于bm25+albert模型的伪相关反馈信息检索方法、系统及存储介质
CN114036929A (zh) * 2021-11-22 2022-02-11 江苏科技大学 一种基于多模型特征融合的全简称匹配的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于AHP的全文搜索算法优化;李臣龙;陶皖;窦易文;;赤峰学院学报(自然科学版);20180425(04);全文 *

Also Published As

Publication number Publication date
CN114969310A (zh) 2022-08-30

Similar Documents

Publication Publication Date Title
CN110442777B (zh) 基于bert的伪相关反馈模型信息检索方法及系统
CN100595763C (zh) 基于自然语言的全文检索系统
CN104537116B (zh) 一种基于标签的图书搜索方法
US8171043B2 (en) Methods for improving the diversity of image search results
CA3078585A1 (en) Methods and system for semantic search in large databases
US20070043761A1 (en) Semantic discovery engine
US20030171914A1 (en) Method and system for retrieving information based on meaningful core word
CN106407344B (zh) 一种生成搜索引擎优化标签的方法和系统
JPH09101990A (ja) 情報フィルタリング装置
CN105117487A (zh) 一种基于内容结构的图书语义检索方法
CN108509405A (zh) 一种演示文稿的生成方法、装置以及设备
CN101393565A (zh) 基于本体的面向虚拟博物馆的搜索方法
CN103064844A (zh) 索引装置、索引方法、检索装置、检索方法和检索系统
Das et al. Indexing the world wide web: The journey so far
CN107239554A (zh) 一种基于匹配度检索英文文本的方法
CN114969310B (zh) 一种面向多维数据的分段式检索排序系统设计方法
CN111125297B (zh) 一种基于搜索引擎的海量离线文本实时推荐方法
JP2001101194A (ja) テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラムが記録された記録媒体
CN113987133A (zh) 一种融合tfidf和lda实现抽取式文本摘要方法
CN111831884B (zh) 一种基于信息查找的匹配系统与方法
JP4452527B2 (ja) 文書検索装置、文書検索方法、および文書検索プログラム
Xu et al. Incorporating semantic word representations into query expansion for microblog information retrieval
CN117708308B (zh) 一种基于rag自然语言智能知识库管理的方法和系统
CN112948544B (zh) 一种基于深度学习与质量影响的图书检索方法
Davare et al. Text Mining Scientific Data to Extract Relevant Documents and Auto-Summarization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant