CN117009384B - 一种基于快速检索算法的列表查询方法 - Google Patents
一种基于快速检索算法的列表查询方法 Download PDFInfo
- Publication number
- CN117009384B CN117009384B CN202311253437.1A CN202311253437A CN117009384B CN 117009384 B CN117009384 B CN 117009384B CN 202311253437 A CN202311253437 A CN 202311253437A CN 117009384 B CN117009384 B CN 117009384B
- Authority
- CN
- China
- Prior art keywords
- list
- value
- retrieval
- list item
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000010845 search algorithm Methods 0.000 title claims description 9
- 238000012512 characterization method Methods 0.000 claims description 14
- 238000013507 mapping Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 3
- 241000234295 Musa Species 0.000 description 2
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及信息检索技术领域,具体涉及一种基于快速检索算法的列表查询方法;根据列表项内数据项的点击量差异特征获得列表项的检索指数,根据列表项的检索频率特征和检索指数获得检索评分。根据列表项与其他列表项的关联检索特征获得列表项的关联系数;根据列表项与其他列表项的关联检索频率特征获得列表项的组合度。根据关联系数和组合度获得列表项的关联特征值和关联值范围;根据单词的列表项的检索评分和关联值范围获得列表项的期望值。本发明根据不同单词不同列表项的期望值优化多单词共同检索的检索查询列表,使得用户期望查询结果的排序更靠前,节约用户的检索时间和提高检索体验。
Description
技术领域
本发明涉及信息检索技术领域,具体涉及一种基于快速检索算法的列表查询方法。
背景技术
随着互联网和数字化技术的快速发展,网络上积累了海量的各种信息,并且随着时间的增长,信息积累速度也逐渐增加,对信息的检索处理也成为挑战。倒排索引算法为一种高效处理大规模信息数据的方法,能够提供快速响应,因此得到了广泛的应用,现代搜索引擎的索引都是基于倒排索引。
在使用倒排索引算法进行检索时,每个单词都会生成一个倒排列表,倒排列表包含了每个出现该单词的文档信息记录,用户检索该单词时会呈现所有的相关文档信息进行查阅。但用户进行多单词组合查询时,由于多个列表进行组合排序,导致所期望的查阅内容可能排序靠后,用户检索时间长,难以搜索到想要查阅的内容,影响用户检索体验。
发明内容
为了解决上述通过倒排索引算法进行信息检索时,可能出现用户期望查询内容排序靠后,用户检索时间长的技术问题,本发明的目的在于提供一种基于快速检索算法的列表查询方法,所采用的技术方案具体如下:
根据历史查询数据集获得单词的倒排列表;根据所述单词的倒排列表中,列表项内数据项的点击量的差异特征获得列表项的检索指数;根据列表项的检索频率特征和所述检索指数获得列表项的检索评分;
根据所述单词的列表项与任意倒排列表的其他列表项之间的关联检索特征获得所述单词的列表项的关联系数;根据所述单词的列表项与任意倒排列表的其他列表项之间的关联检索频率特征获得所述单词的列表项的组合度;
根据所述单词的列表项的所述关联系数和所述组合度获得所述单词的列表项的关联特征值;根据所述单词的列表项的所述关联特征值确定关联值范围;根据所述单词的列表项的所述检索评分和所述关联值范围获得列表项的期望值;
根据单词的列表项的所述期望值优化检索内容的排序结果。
进一步地,所述根据历史查询数据集获得单词的倒排列表的步骤包括:
所述历史查询数据集包括每次检索的单词、检索查询结果和结果点击次数;根据查询的单词通过倒排索引算法构建所述单词的所述倒排列表。
进一步地,所述根据所述单词的倒排列表中,列表项内数据项的点击量的差异特征获得列表项的检索指数的步骤包括:
对于单词的任意列表项,计算所述任意列表项内所有被点击的数据项的所述结果点击次数的平均值,获得数据项的点击量均值;计算所述任意列表项内的数据项的所述结果点击次数的最大值和所述点击量均值的差值,获得点击量差异值,计算所述点击量差异值与预设极小正数的和值,获得点击量差异值表征值;计算所述点击量均值与所述点击量差异值表征值的比值并正相关映射,获得单词的所述任意列表项的检索指数。
进一步地,所述根据列表项的检索频率特征和所述检索指数获得列表项的检索评分的步骤包括:
计算单词的所述任意列表项在所有检索查询结果中出现的次数,获得所述任意列表项的检索频率值;计算所述检索频率值与所述检索指数的乘积并归一化,获得单词的所述任意列表项的所述检索评分。
进一步地,所述根据所述单词的列表项与任意倒排列表的其他列表项之间的关联检索特征获得所述单词的列表项的关联系数的步骤包括:
计算所述单词的任意列表项与任意倒排列表的其他列表项出现在相同的检索查询结果中并且点击所述任意列表项的次数,获得所述单词的任意列表项与其他列表项的相关次数;计算所述相关次数与总结果点击次数的比值,获得所述单词的任意列表项与其他列表项的相关检索占比;计算所述相关次数与所述检索频率值的比值,获得所述任意列表项与其他列表项的相关程度系数;计算所述相关检索占比与所述相关程度系数的乘积并归一化,获得所述单词的所述任意列表项和任意倒排列表的其他列表项的所述关联系数。
进一步地,所述根据所述单词的列表项与任意倒排列表的其他列表项之间的关联检索频率特征获得所述单词的列表项的组合度的步骤包括:
计算所述单词的所述任意列表项的所述检索频率值与总检索次数的比值,获得任意列表项检索占比;计算所述其他列表项的所述检索频率值与总检索次数的比值,获得其他列表项检索占比;计算所述任意列表项检索占比与所述其他列表项检索占比的乘积,获得独立检索占比;计算所述相关检索占比与所述独立检索占比的乘积,获得所述单词的所述任意列表项和任意倒排列表的其他列表项的所述组合度;当所述组合度大于预设阈值时,所述组合度为预设第一数值,否则为预设第二数值,所述预设第一数值大于所述预设第二数值。
进一步地,所述根据所述单词的列表项的所述关联系数和所述组合度获得所述单词的列表项的关联特征值的步骤包括:
计算所述关联系数与所述组合度的乘积,获得所述单词的列表项和任意倒排列表的其他列表项之间的所述关联特征值。
进一步地,所述根据所述单词的列表项的所述关联特征值确定关联值范围的步骤包括:
计算所述单词的所述任意列表项的所有大于预设关联阈值的关联特征值的平均值,获得关联值均值;计算所述单词的所述任意列表项的所有大于预设关联阈值的关联特征值的标准差,获得关联值标准差;计算所述关联值标准差与预设第三数值的乘积,获得偏差值;计算所述关联值均值与所述偏差值的差值,作为边界范围值;将大于所述边界范围值的所述关联特征值组合获得所述关联值范围。
进一步地,所述根据所述单词的列表项的所述检索评分和所述关联值范围获得列表项的期望值的步骤包括:
计算所述关联值范围中的最大值与最小值的差值,获得范围差,计算所述范围差与预设正数的和值,获得所述范围差表征值;计算所述关联值范围中的最小值与所述范围差表征值的比值,获得关联差异表征值;计算所述单词的列表项的所述检索评分与所述关联差异表征值的乘积,获得所述单词的列表项的所述期望值。
进一步地,所述根据单词的列表项的所述期望值优化检索内容的排序结果的步骤包括:
将检索的单词的所述检索查询结果根据所述期望值从大到小的顺序对所述列表项进行排序。
本发明具有如下有益效果:
在本发明实施例中,获取检索指数能够反映列表项对应的文档的重要程度,根据列表项的检索频率特征和检索指数获得列表项的检索评分能够根据该列表项被检测的频率和重要程度进行数字化表征,进而根据该检索评分优化最终检索查询结果的排序情况,提高优化排序的准确性。根据关联系数和组合度获取该列表项的关联特征值,能够反映该单词的该列表项与其他单词的其他列表项被同时检索且该列表项被点击的关联程度,进而根据该单词的关联值范围反映该列表项的重要程度;最终根据检索评分和关联值范围确定该列表项的期望值,根据不同单词不同列表项的期望值优化排序结果;用户在多单词检索时,使得更符合用户查询期望的列表项排序靠前,减少用户检索时间,提高用户检索体验性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种基于快速检索算法的列表查询方法流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于快速检索算法的列表查询方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种基于快速检索算法的列表查询方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种基于快速检索算法的列表查询方法流程图,该方法包括以下步骤:
步骤S1,根据历史查询数据集获得单词的倒排列表;根据单词的倒排列表中,列表项内数据项的点击量的差异特征获得列表项的检索指数;根据列表项的检索频率特征和检索指数获得列表项的检索评分。
在本发明实施例中,实施场景为对检索结果的列表排序进行优化。为了能够学习用户的检索偏好和习惯,故首先根据历史查询数据集获得单词的倒排列表,其中历史查询数据集包括每次检索的单词、检索查询结果和结果点击次数,在本发明实施例中取30天的历史查询数据,该时间范围能够提供较为全面的查询数据,实施者可根据实施场景自行确定。查询数据集可通过数据库的查询日志获取,其中检索查询结果为每次检索时对应检索到的列表项,一个列表项为倒排列表中一个文档信息,结果点击次数为不同的列表项的点击次数记录。根据查询的单词通过倒排索引算法构建单词的倒排列表,一个单词对应一个倒排列表,倒排列表通过不同的列表项构成;需要说明的是,倒排索引算法属于现有技术,具体构建步骤不再赘述。
在优化检索结果的排序列表时,需要分析不同的列表项即不同文档的评分,该评分能够反映其重要性;例如检索一个单词时,会通过倒排列表中大量的列表项进行检索,每个列表项对应的文档中不仅包含该单词,同时存在其他关键词,用户可能会通过其他关键词检索到该文档,因此当该单词的某个列表项在通过其他关键词检索到并且点击的次数越多,则该列表项对应的文档越重要。故根据该单词的倒排列表中,列表项内数据项的点击量的差异特征获得列表项的检索指数。
优选地,在本发明一个实施例中,获取检索指数包括:数据项为某个单词的某列表项对应的文档中其他的关键词,一个关键词对应一个数据项。对于单词的任意列表项,计算该任意列表项内所有被点击的数据项的结果点击次数的平均值,获得数据项的点击量均值;只分析被点击过的数据项的目的是:一个列表项对应的文档可能包括大量关键词,部分关键词可能未被检索和点击过,避免对点击量均值出现计算偏差,剔除从未点击过的关键词;点击量均值越大,意味着该单词的该任意列表项的重要性越大,通过不同数据项进行检索的次数越多。计算该任意列表项内的数据项的结果点击次数的最大值和点击量均值的差值,获得点击量差异值,计算点击量差异值与预设极小正数的和值,在本发明中预设极小正数的值为0.01,目的是避免分母为零,实施者可根据实施场景自行确定,获得点击量差异值表征值,该值越接近0,意味着该任意列表项的不同数据项的被点击次数越接近。计算该点击量均值与点击量差异值表征值的比值并正相关映射,获得单词的任意列表项的检索指数;当点击量均值越大,且点击量差异值表征值越小,意味着该单词的该任意列表项中的多个数据项被检索点击的次数越多,该列表项对应的文档越重要,检索指数越大。
通过分析该任意列表项中数据项的被检索点击特征后,则需要分析该查询该单词的被检索的重要程度,进而根据列表项的检索频率特征和检索指数获得列表项的检索评分。
优选地,在本发明一个实施例,获取检索评分包括:计算单词的该任意列表项在所有检索查询结果中出现的次数,获得该任意列表项的检索频率值,该检索频率值越大,意味着该单词被检索的次数越多,重要性越高;计算该检索频率值与检索指数的乘积并归一化,获得单词的该任意列表项的检索评分;当检索频率值和检索指数越大,意味着该单词的被检索次数越多,且该任意列表项中其他关键词被查询点击的次数越多,进而意味着该任意列表项对应的文档越重要,在检索中排序越应该靠前,检索评分越高;反之检索评分越低,排序越靠后。获取检索评分的公式具体包括:
式中,为单词的任意列表项的检索评分,/>表示检索频率值,/>表示数据项的点击量均值,/>表示任意列表项内的数据项的结果点击次数的最大值,/>表示预设极小正数,表示点击量差异值,/>表示点击量差异值表征值,/>表示以自然常数为底的指数函数,目的是进行正相关映射;/>表示检索指数,/>表示归一化函数。
步骤S2,根据单词的列表项与任意倒排列表的其他列表项之间的关联检索特征获得单词的列表项的关联系数;根据单词的列表项与任意倒排列表的其他列表项之间的关联检索频率特征获得单词的列表项的组合度。
因为用户在检索过程中可能是多个单词进行组合检索的,例如检索“苹果和香蕉”,则查询结果中会出现香蕉和苹果的不同倒排列表和分别对应的列表项。若某个单词的倒排列表经常会和其他单词的倒排列表在同一检索结果中出现,则该单词的重要性较高,且该单词的任意列表项的排序更应该靠前,进而更容易被用户检索到。因此可根据单词的列表项与任意倒排列表的其他列表项之间的关联检索特征获得单词的列表项的关联系数。
优选地,在本发明一个实施例中,获取关联系数包括:计算该单词的任意列表项与任意倒排列表的其他列表项出现在相同的检索查询结果中并且点击该任意列表项的次数,获得该单词的任意列表项与其他列表项的相关次数;当两个单词同时出现在一个检索语句中,则该单词的倒排列表和其他单词的倒排列表中所有的列表项会出现在同一检索查询结果中,当出现次数越多,意味着该单词的重要性越高。进一步地,当该单词和其他单词的所有倒排列表出现在同一检索查询结果中,该单词的任意列表项被点击查看,意味着该单词的该任意列表项为用户的期望检索结果的可能性越大;故相关次数越大,意味着该单词的该任意列表项为用户期望检索结果的可能性越大,在检索结果排序时越应该靠前。
进一步地,计算该相关次数与总结果点击次数的比值,该总结果点击次数表示历史查询数据集中所有查询结果的点击总次数,获得该单词的任意列表项与其他列表项的相关检索占比;该相关检索占比越大,意味着该单词和其他单词的关联检索次数越多,且该单词的该任意列表项被点击的次数越多,越可能是用户的期望检索结果,进而说明该单词的该任意列表项在检索查询结果中排序需要更靠前。计算该相关次数与该单词的该任意列表项的检索频率值的比值,获得该任意列表项与其他列表项的相关程度系数;该值越大,意味着该单词的该任意列表项和该其他列表项被关联检索的概率更高,且该任意列表项被点击的概率更大。计算该相关检索占比与相关程度系数的乘积并归一化,获得该单词的该任意列表项和任意倒排列表的其他列表项的关联系数;该关联系数越大,意味着该单词的任意列表项被关联检索的概率越大,且越符合用户的查询期望。
获得该单词的该任意列表项和不同的其他列表项的关联系数后,可继续分析该单词和其他单词同时被检索的组合程度,进而根据组合程度和关联检索概率分析该单词的关联特征。故根据单词的列表项与任意倒排列表的其他列表项之间的关联检索频率特征获得单词的列表项的组合度。
优选地,在本发明一个实施例中,获取组合度包括:计算该单词的该任意列表项的检索频率值与总检索次数的比值,获得任意列表项检索占比;该值越大,意味着该单词被检索到的概率越高,该单词越重要。计算其他列表项的检索频率值与总检索次数的比值,获得其他列表项检索占比;该值越大,说明该其他列表项对应的其他单词被检索的概率越高。计算任意列表项检索占比与其他列表项检索占比的乘积,获得独立检索占比;该值越大,说明该单词和该其他单词都越重要,被检索概率都越高。计算相关检索占比与独立检索占比的乘积,获得单词的任意列表项和任意倒排列表的其他列表项的组合度;当相关检索占比越大,意味着两个单词同时被检索到的概率越大,说明两个单词关联性越大。当组合度大于预设阈值时,可认为该两个单词具有关联特征,同时出现的概率更高,组合度为预设第一数值;否则为预设第二数值,意味着两个列表项同时出现的概率比单独出现的概率低,认为该两个单词属于不相关的邻域。预设第一数值大于预设第二数值。在本发明实施例中预设阈值为1,预设第一数值为1,预设第二数值为0,实施者可根据实施场景自行确定。
根据单词的任意列表项与任意其他列表项的关联系数和组合度可分析该单词的任意列表项在检索过程中被关联检索的程度,通过该程度反映该单词的该任意列表项的重要性;进而可分析该单词的该任意列表项在检索查询结果中的顺序。
步骤S3,根据单词的列表项的关联系数和组合度获得单词的列表项的关联特征值;根据单词的列表项的关联特征值确定关联值范围;根据单词的列表项的检索评分和关联值范围获得列表项的期望值。
首先,为了根据单词的任意列表项的关联特征分析该任意列表项的重要性,故根据单词的列表项的关联系数和组合度获得单词的列表项的关联特征值;优选地,在本发明一个实施例中,获取关联特征值包括:计算关联系数与组合度的乘积,获得该单词的该任意列表项和任意倒排列表的其他列表项之间的关联特征值;当关联系数和组合度越大,意味着该任意列表项和其他列表项的关联程度越大,若该任意列表项和多个其他列表项的多个关联特征值都越大,则意味着该单词的该任意列表项越重要,被关联检索且点击的次数越高,越符合用户的查询期望。获取关联特征值的公式包括:
式中,表示该单词的任意列表项和任意一个其他列表项的关联特征值,/>表示该单词的任意列表项与任意一个其他列表项出现在相同的检索查询结果中并且点击该任意列表项的次数,即相关次数,/>表示总结果点击次数,/>表示该单词的任意列表项与其他列表项的相关检索占比;/>表示该单词的任意列表项的检索频率值;/>表示相关程度系数,表示该单词的该任意列表项和任意倒排列表的其他列表项的关联系数。/>表示任意列表项检索占比,/>表示其他列表项检索占比;/>表示独立检索占比,/>表示组合度,/>表示艾佛森括号,当括号内条件满足大于预设阈值/>时,括号内的值为预设第一数值,否则为预设第二数值。
进一步地,因为历史查询数据集中检索的单词不是同一领域的,故每个单词都不会和大量其他单词产生检索关联,因此为了提高每个单词关联特征的可靠性,进而提高对排序结果的优化准确性,需要对每个单词的关联值范围进行限定。故根据单词的列表项的关联特征值确定关联值范围。
优选地,在本发明一个实施例中,获取关联值范围包括:计算该单词的该任意列表项的所有大于预设关联阈值的关联特征值的平均值,获得关联值均值,在本发明实施例中预设关联阈值为0,在计算关联特征值中已将没有太大关联特征的关联特征值结果限定为0,剔除无关联的关联特征值是避免关联值均值产生偏差;关联值均值越大,意味着该单词被关联检索且该任意列表项被点击的概率越大。计算该单词的该任意列表项的所有大于预设关联阈值的关联特征值的标准差,获得关联值标准差,该值越大,意味着关联值均值越离散;计算关联值标准差与预设第三数值的乘积,获得偏差值,在本发明实施例中预设第三数值为1;计算关联值均值与偏差值的差值,作为边界范围值;该边界范围值目的是对关联特征值的范围进行限定,避免其他单词与该单词关联性差的关联特征值影响最终的排序优化效果。将大于边界范围值的关联特征值组合获得关联值范围,该边界范围值即为关联值均值与一个标准差的差值结果,该关联值范围中的关联特征值能够该单词的该任意列表项与其他列表项的关联程度。
获得该单词的任意列表项的检索评分和关联值范围后,进而可根据该单词的列表项的检索评分和关联值范围获得列表项的期望值;优选地,在本发明一个实施例中,获取期望值包括:计算该关联值范围中的最大值与最小值的差值,获得范围差,该范围差越小,意味着该单词的该任意列表项与其他列表项的关联特征越接近。计算范围差与预设正数的和值,获得范围差表征值,在本发明实施例中,预设正数为0.01,目的是避免分母为零;计算关联值范围中的最小值与范围差表征值的比值,获得关联差异表征值;当关联值范围中最小值越大且范围差表征值越小,意味着该任意列表项被关联检索且被点击的概率越大,越符合用户的查询期望。计算单词的该任意列表项的检索评分与关联差异表征值的乘积,获得单词的列表项的期望值;当该检索评分和关联差异表征值越大,意味着该任意列表项的检索评分越大、被关联检索且被点击的概率越大,进而意味着该任意列表项越符合用户的查询期望,在查询结果列表中越应该排序在前。
步骤S4,根据单词的列表项的期望值优化检索内容的排序结果。
获得不同单词不同列表项的期望值后,进而将检索的单词的检索查询结果根据期望值从大到小的顺序对列表项进行排序,例如两个单词同时参与检索,将两个单词的所有列表项按照期望值从大到小共同参与排序,使得期望值高的列表项能够更快地被用户查询到,进而优化了多单词检索查询结果的排序结果,提高用户的使用体验。
综上所述,本发明实施例提供了一种基于快速检索算法的列表查询方法;根据列表项内数据项的点击量差异特征获得列表项的检索指数,根据列表项的检索频率特征和检索指数获得检索评分。根据列表项与其他列表项的关联检索特征获得列表项的关联系数;根据列表项与其他列表项的关联检索频率特征获得列表项的组合度。根据关联系数和组合度获得列表项的关联特征值和关联值范围;根据单词的列表项的检索评分和关联值范围获得列表项的期望值。本发明根据不同单词不同列表项的期望值优化检索查询列表,使得用户期望查询结果的排序更靠前,节约用户的检索时间和提高检索体验。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
Claims (2)
1.一种基于快速检索算法的列表查询方法,其特征在于,所述方法包括以下步骤:
根据历史查询数据集获得单词的倒排列表;根据所述单词的倒排列表中,列表项内数据项的点击量的差异特征获得列表项的检索指数;根据列表项的检索频率特征和所述检索指数获得列表项的检索评分;
根据所述单词的列表项与任意倒排列表的其他列表项之间的关联检索特征获得所述单词的列表项的关联系数;根据所述单词的列表项与任意倒排列表的其他列表项之间的关联检索频率特征获得所述单词的列表项的组合度;
根据所述单词的列表项的所述关联系数和所述组合度获得所述单词的列表项的关联特征值;根据所述单词的列表项的所述关联特征值确定关联值范围;根据所述单词的列表项的所述检索评分和所述关联值范围获得列表项的期望值;
根据单词的列表项的所述期望值优化检索内容的排序结果;
所述根据历史查询数据集获得单词的倒排列表的步骤包括:
所述历史查询数据集包括每次检索的单词、检索查询结果和结果点击次数;根据查询的单词通过倒排索引算法构建所述单词的所述倒排列表;
所述根据所述单词的倒排列表中,列表项内数据项的点击量的差异特征获得列表项的检索指数的步骤包括:
对于单词的任意列表项,计算所述任意列表项内所有被点击的数据项的所述结果点击次数的平均值,获得数据项的点击量均值;计算所述任意列表项内的数据项的所述结果点击次数的最大值和所述点击量均值的差值,获得点击量差异值,计算所述点击量差异值与预设极小正数的和值,获得点击量差异值表征值;计算所述点击量均值与所述点击量差异值表征值的比值并正相关映射,获得单词的所述任意列表项的检索指数;
所述根据列表项的检索频率特征和所述检索指数获得列表项的检索评分的步骤包括:
计算单词的所述任意列表项在所有检索查询结果中出现的次数,获得所述任意列表项的检索频率值;计算所述检索频率值与所述检索指数的乘积并归一化,获得单词的所述任意列表项的所述检索评分;
所述根据所述单词的列表项与任意倒排列表的其他列表项之间的关联检索特征获得所述单词的列表项的关联系数的步骤包括:
计算所述单词的任意列表项与任意倒排列表的其他列表项出现在相同的检索查询结果中并且点击所述任意列表项的次数,获得所述单词的任意列表项与其他列表项的相关次数;计算所述相关次数与总结果点击次数的比值,获得所述单词的任意列表项与其他列表项的相关检索占比;计算所述相关次数与所述检索频率值的比值,获得所述任意列表项与其他列表项的相关程度系数;计算所述相关检索占比与所述相关程度系数的乘积并归一化,获得所述单词的所述任意列表项和任意倒排列表的其他列表项的所述关联系数;
所述根据所述单词的列表项与任意倒排列表的其他列表项之间的关联检索频率特征获得所述单词的列表项的组合度的步骤包括:
计算所述单词的所述任意列表项的所述检索频率值与总检索次数的比值,获得任意列表项检索占比;计算所述其他列表项的所述检索频率值与总检索次数的比值,获得其他列表项检索占比;计算所述任意列表项检索占比与所述其他列表项检索占比的乘积,获得独立检索占比;计算所述相关检索占比与所述独立检索占比的乘积,获得所述单词的所述任意列表项和任意倒排列表的其他列表项的所述组合度;当所述组合度大于预设阈值时,所述组合度为预设第一数值,否则为预设第二数值,所述预设第一数值大于所述预设第二数值;
所述根据所述单词的列表项的所述关联系数和所述组合度获得所述单词的列表项的关联特征值的步骤包括:
计算所述关联系数与所述组合度的乘积,获得所述单词的列表项和任意倒排列表的其他列表项之间的所述关联特征值;
所述根据所述单词的列表项的所述关联特征值确定关联值范围的步骤包括:
计算所述单词的所述任意列表项的所有大于预设关联阈值的关联特征值的平均值,获得关联值均值;计算所述单词的所述任意列表项的所有大于预设关联阈值的关联特征值的标准差,获得关联值标准差;计算所述关联值标准差与预设第三数值的乘积,获得偏差值;计算所述关联值均值与所述偏差值的差值,作为边界范围值;将大于所述边界范围值的所述关联特征值组合获得所述关联值范围;
所述根据所述单词的列表项的所述检索评分和所述关联值范围获得列表项的期望值的步骤包括:
计算所述关联值范围中的最大值与最小值的差值,获得范围差,计算所述范围差与预设正数的和值,获得所述范围差表征值;计算所述关联值范围中的最小值与所述范围差表征值的比值,获得关联差异表征值;计算所述单词的列表项的所述检索评分与所述关联差异表征值的乘积,获得所述单词的列表项的所述期望值。
2.根据权利要求1所述的一种基于快速检索算法的列表查询方法,其特征在于,所述根据单词的列表项的所述期望值优化检索内容的排序结果的步骤包括:
将检索的单词的所述检索查询结果根据所述期望值从大到小的顺序对所述列表项进行排序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311253437.1A CN117009384B (zh) | 2023-09-27 | 2023-09-27 | 一种基于快速检索算法的列表查询方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311253437.1A CN117009384B (zh) | 2023-09-27 | 2023-09-27 | 一种基于快速检索算法的列表查询方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117009384A CN117009384A (zh) | 2023-11-07 |
CN117009384B true CN117009384B (zh) | 2023-12-19 |
Family
ID=88571220
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311253437.1A Active CN117009384B (zh) | 2023-09-27 | 2023-09-27 | 一种基于快速检索算法的列表查询方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117009384B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107402960A (zh) * | 2017-06-15 | 2017-11-28 | 成都优易数据有限公司 | 一种基于语义语气加权的倒排索引优化算法 |
CN112163003A (zh) * | 2020-10-14 | 2021-01-01 | 广州学而优信息技术有限公司 | 一种基于结构化数据的关联词语检索方法 |
CN113486156A (zh) * | 2021-07-30 | 2021-10-08 | 北京鼎普科技股份有限公司 | 一种基于es的关联文档检索方法 |
CN113836272A (zh) * | 2021-09-29 | 2021-12-24 | 平安资产管理有限责任公司 | 关键信息的展示方法、系统、计算机设备及可读存储介质 |
CN115221874A (zh) * | 2022-07-21 | 2022-10-21 | 中国建设银行股份有限公司 | 倒排索引的构建方法、名单筛查方法、装置、电子设备 |
CN115544342A (zh) * | 2022-09-15 | 2022-12-30 | 上海天擎天拓软件技术有限公司 | 一种基于网站内容搜索引擎的方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8341017B2 (en) * | 2004-01-09 | 2012-12-25 | Microsoft Corporation | System and method for optimizing search result listings |
US8489589B2 (en) * | 2010-02-05 | 2013-07-16 | Microsoft Corporation | Visual search reranking |
US8498972B2 (en) * | 2010-12-16 | 2013-07-30 | Sap Ag | String and sub-string searching using inverted indexes |
US10303725B2 (en) * | 2014-05-01 | 2019-05-28 | Airbnb, Inc. | Re-ranking search results for location refining and diversity |
-
2023
- 2023-09-27 CN CN202311253437.1A patent/CN117009384B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107402960A (zh) * | 2017-06-15 | 2017-11-28 | 成都优易数据有限公司 | 一种基于语义语气加权的倒排索引优化算法 |
CN112163003A (zh) * | 2020-10-14 | 2021-01-01 | 广州学而优信息技术有限公司 | 一种基于结构化数据的关联词语检索方法 |
CN113486156A (zh) * | 2021-07-30 | 2021-10-08 | 北京鼎普科技股份有限公司 | 一种基于es的关联文档检索方法 |
CN113836272A (zh) * | 2021-09-29 | 2021-12-24 | 平安资产管理有限责任公司 | 关键信息的展示方法、系统、计算机设备及可读存储介质 |
CN115221874A (zh) * | 2022-07-21 | 2022-10-21 | 中国建设银行股份有限公司 | 倒排索引的构建方法、名单筛查方法、装置、电子设备 |
CN115544342A (zh) * | 2022-09-15 | 2022-12-30 | 上海天擎天拓软件技术有限公司 | 一种基于网站内容搜索引擎的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117009384A (zh) | 2023-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109829104B (zh) | 基于语义相似度的伪相关反馈模型信息检索方法及系统 | |
US9104733B2 (en) | Web search ranking | |
US8341159B2 (en) | Creating taxonomies and training data for document categorization | |
US8719262B1 (en) | Identification of semantic units from within a search query | |
JP5597255B2 (ja) | 単語の重みに基づいた検索結果の順位付け | |
US6112203A (en) | Method for ranking documents in a hyperlinked environment using connectivity and selective content analysis | |
US7743062B2 (en) | Apparatus for selecting documents in response to a plurality of inquiries by a plurality of clients by estimating the relevance of documents | |
US9317550B2 (en) | Query expansion | |
US8965904B2 (en) | Apparatus and method for information access, search, rank and retrieval | |
US8190592B1 (en) | Similarity-based searching | |
US20060173556A1 (en) | Methods and apparatus for using user gender and/or age group to improve the organization of documents retrieved in response to a search query | |
US8620907B2 (en) | Matching funnel for large document index | |
JP6355840B2 (ja) | ストップワード識別方法および装置 | |
EP2842060A1 (en) | Recommending keywords | |
US20120130981A1 (en) | Selection of atoms for search engine retrieval | |
CN112989215B (zh) | 一种基于稀疏用户行为数据的知识图谱增强的推荐系统 | |
CN113742292B (zh) | 基于ai技术的多线程数据检索及所检索数据的访问方法 | |
CN102915381A (zh) | 基于多维语义的可视化网络检索呈现系统及呈现控制方法 | |
CN104008097B (zh) | 实现查询理解的方法及装置 | |
CN108509449B (zh) | 一种信息处理的方法及服务器 | |
CN117009384B (zh) | 一种基于快速检索算法的列表查询方法 | |
Bi et al. | Cubelsi: An effective and efficient method for searching resources in social tagging systems | |
CN114547251B (zh) | 基于bert的两阶段民间故事检索方法 | |
CN112199461B (zh) | 基于块索引结构的文档检索方法、装置、介质和设备 | |
TW201102842A (en) | Word matching and information searching method and device thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |