CN107133290B - 一种个性化信息检索方法与装置 - Google Patents
一种个性化信息检索方法与装置 Download PDFInfo
- Publication number
- CN107133290B CN107133290B CN201710257165.0A CN201710257165A CN107133290B CN 107133290 B CN107133290 B CN 107133290B CN 201710257165 A CN201710257165 A CN 201710257165A CN 107133290 B CN107133290 B CN 107133290B
- Authority
- CN
- China
- Prior art keywords
- user
- query
- document
- term behavior
- relevance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000011159 matrix material Substances 0.000 claims abstract description 96
- 230000007774 longterm Effects 0.000 claims abstract description 40
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 38
- 230000006399 behavior Effects 0.000 claims description 97
- 238000000034 method Methods 0.000 claims description 74
- 230000006870 function Effects 0.000 claims description 33
- 238000012549 training Methods 0.000 claims description 22
- 230000000694 effects Effects 0.000 claims description 10
- 238000005303 weighing Methods 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种个性化信息检索方法与装置包括:根据指定用户的检索任务生成检索结果;对该用户检索任务中的每个查询短语以及每个查询短语中的每个查询字进行贝叶斯概率矩阵分解,获得查询‑文档相关度;获取该用户的长期行为与短期行为,并根据用户的长期行为、短期行为与行为权衡参数获得用户‑文档关注度;生成该用户的排序权衡参数,并根据查询‑文档相关度、用户‑文档关注度与排序权衡参数确定检索结果中各文档的相关度;根据检索结果中各文档的相关度对检索结果中的文档排序并返回用户。本发明能够提高个性化信息检索排序模型的准确率,并可以不依赖于查询和文档的具体内容工作。
Description
技术领域
本发明涉及信息检索领域,特别地,涉及一种个性化信息检索方法与装置。
背景技术
随着信息检索系统能记录每个用户的查询以及浏览检索结果的记录等信息,个性化的信息检索模型得到了快速的发展。在这些个性化信息检索排序模型中,用户的行为信息可以被用来预测用户的长期关注。当用户再次输入查询,进行信息检索时,与其长期关注点相关的结果将被优先返回给用户,来提高信息检索的准确率,满足用户的检索需求,进而提高用户使用信息检索系统的满意度。这种通过挖掘用户的历史查询、行为等信息,来提高信息检索排序质量的方法是现有技术中的一种常用手段。通常说用户的行为信息,包括用户长期一段时间内的查询检索历史记录、点击文档的记录和用户当前信息检索任务下的先前历史查询记录或者点击文档记录等,这些用户查询检索记录可以用来提高用户获取相关文档的可能性。
现有技术的个性化信息检索排序模型中,用户的长期行为记录或者在当前信息检索任务下的短期行为记录被用来预测用户的检索意图,提高信息检索准确率,但是两者没有被同时考虑,这使得当用户的当前查询意图与其长期的关注存在差异时,排序模型的检索性能相对较低。同时,已有的信息检索排序模型主要基于查询和文档的具体内容来估计两者的相关度,这种模型在查询和文档的具体内容无法获取的情况下,将无法工作。
针对现有技术中个性化信息检索排序模型准确率低、内容依赖性高的问题,目前尚未有有效的解决方案。
发明内容
有鉴于此,本发明的目的在于提出一种个性化信息检索方法与装置,能够提高个性化信息检索排序模型的准确率,并可以不依赖于查询和文档的具体内容工作。
基于上述目的,本发明提供的技术方案如下:
根据本发明的一个方面,提供了一种个性化信息检索方法,包括:
根据指定用户的检索任务生成检索结果;
对该用户检索任务中的每个查询短语以及每个查询短语中的每个查询字进行贝叶斯概率矩阵分解,获得查询-文档相关度;
获取该用户的长期行为与短期行为,并根据用户的长期行为、短期行为与行为权衡参数获得用户-文档关注度;
生成该用户的排序权衡参数,并根据查询-文档相关度、用户-文档关注度与排序权衡参数确定检索结果中各文档的相关度;
根据检索结果中各文档的相关度对检索结果中的文档排序并返回用户。
在一些实施方式中,所述检索任务包括多个查询短语,所述每个查询短语包括多个查询字,所述对该用户检索任务中的每个查询短语以及每个查询短语中的每个查询字进行贝叶斯概率矩阵分解获得查询-文档相关度包括:
对所述每个查询短语进行贝叶斯概率矩阵分解,获得查询短语层次的查询-文档相关度;
对所述每个查询字进行贝叶斯概率矩阵分解,根据分解结果与查询字在其查询短语中出现的次数获得查询字层次的查询-文档相关度;
分别计算查询短语层次的查询-文档相关度与查询字层次的查询-文档相关度的稀疏度,并将稀疏度值较小的层次定为查询-文档相关度。
在一些实施方式中,所述对该用户的每个查询短语或每个查询字进行贝叶斯概率矩阵分解包括:
获取该用户提交每个查询短语后浏览每个文档的时间,并根据该浏览时间建立查询-文档相关度矩阵;
获取所有查询短语与所有文档的超参,并根据所有查询短语与所有文档的超参确定查询-文档相关度矩阵与其近似矩阵的相似度函数;
通过最大期望算法求得相似度函数的最大值;
根据查询-文档相关度矩阵与相似度函数的最大值获得近似矩阵作为矩阵分解结果。
在一些实施方式中,所述计算稀疏度包括:
获取矩阵内所有元素的值;
生成矩阵内所有元素的稀疏函数,当元素值大于1时稀疏函数为1,当元素值小于等于1时稀疏函数为0;
根据矩阵内所有元素的稀疏函数之和计算矩阵的稀疏度。
在一些实施方式中,所述根据该用户的长期行为、短期行为与行为权衡参数获得用户-文档关注度包括:
根据指定文档与其他文档间的欧氏距离与用户短期行为中当前检索任务下所有点击文档的集合确定该用户在当前检索任务下对指定文档的关注度;
根据用户长期行为中该用户对所有文档的关注度与该用户对所有文档的点击次数确定该用户对指定文档的总体关注度;
使用预先确定的行为权衡参数调整该用户在当前检索任务下对指定文档的关注度与该用户对指定文档的总体关注度二者所占权重,获得用户-文档关注度。
在一些实施方式中,当该用户不存在可供读取的长期行为或短期行为记录时,执行以下步骤:
检索提交过与该用户相同查询短语的用户,生成相似用户群;
在相似用户群中选取提交相同查询短语次数最多的用户作为最相似用户,当存在多个提交相同查询短语次数最多的用户时,选取长期行为或短期行为记录最多的用户作为最相似用户;
根据最相似用户的长期行为或短期行为模拟该用户的长期行为或短期行为。
在一些实施方式中,当该用户出现于训练集中时,所述生成该用户的排序权衡参数包括:
从0到1逐渐调节排序权衡参数;
依次使用每个排序权衡参数进行排序,并获得用户反馈检索效果;
选择检索效果最好的排序权衡参数存入训练集。
在一些实施方式中,当该用户未出现于训练集中时,所述生成该用户的排序权衡参数包括:
检索提交过与该用户相同查询短语的用户,生成相似用户群;
在相似用户群中选取提交相同查询短语次数最多的用户作为最相似用户,当存在多个提交相同查询短语次数最多的用户时,选取长期行为或短期行为记录最多的用户作为最相似用户;
根据最相似用户与相似用户群其他用户间的欧氏距离与相似用户群各用户的排序权衡参数确定该用户的排序权衡参数。
在一些实施方式中,所述根据查询-文档相关度、用户-文档关注度与排序权衡参数确定检索结果中各文档的相关度,为使用该用户的排序权衡参数调整该用户的查询短语的查询-文档相关度与该用户的用户-文档关注度二者所占权重,获得各文档的相关度。
根据本发明的另一个方面,还提供了一种电子设备,包括至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法。
从上面所述可以看出,本发明提供的技术方案通过对用户检索任务中的每个查询短语以及每个查询短语中的每个查询字进行贝叶斯概率矩阵分解,获得查询-文档相关度,根据用户的长期行为、短期行为与行为权衡参数获得用户-文档关注度,根据查询-文档相关度、用户-文档关注度与排序权衡参数确定检索结果中各文档的相关度并排序的技术手段,提高个性化信息检索排序模型的准确率,并可以不依赖于查询和文档的具体内容工作。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明实施例的一种个性化信息检索方法的流程图;
图2为本发明的执行一种个性化信息检索方法的电子设备的一个实施例的硬件结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进一步进行清楚、完整、详细地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
基于上述目的,本发明实施例的第一个方面,提出了一种能够针对不同用户或不同类型的节点进行个性化信息检索方法的第一个实施例。图1示出的是本发明提供的个性化信息检索方法的第一个实施例的流程示意图。
如图1所示,根据本发明实施例提供的个性化信息检索方法包括:
步骤S101,根据指定用户的检索任务生成检索结果;
步骤S103,对该用户检索任务中的每个查询短语以及每个查询短语中的每个查询字进行贝叶斯概率矩阵分解,获得查询-文档相关度;
步骤S105,获取该用户的长期行为与短期行为,并根据用户的长期行为、短期行为与行为权衡参数获得用户-文档关注度;
步骤S107,生成该用户的排序权衡参数,并根据查询-文档相关度、用户-文档关注度与排序权衡参数确定检索结果中各文档的相关度;
步骤S109,根据检索结果中各文档的相关度对检索结果中的文档排序并返回用户。
在一些实施方式中,所述检索任务包括多个查询短语,所述每个查询短语包括多个查询字,所述对该用户检索任务中的每个查询短语以及每个查询短语中的每个查询字进行贝叶斯概率矩阵分解获得查询-文档相关度包括:
对所述每个查询短语进行贝叶斯概率矩阵分解,获得查询短语层次的查询-文档相关度;
对所述每个查询字进行贝叶斯概率矩阵分解,根据分解结果与查询字在其查询短语中出现的次数获得查询字层次的查询-文档相关度;
分别计算查询短语层次的查询-文档相关度与查询字层次的查询-文档相关度的稀疏度,并将稀疏度值较小的层次定为查询-文档相关度。
在一些实施方式中,所述对该用户的每个查询短语或每个查询字进行贝叶斯概率矩阵分解包括:
获取该用户提交每个查询短语后浏览每个文档的时间,并根据该浏览时间建立查询-文档相关度矩阵;
获取所有查询短语与所有文档的超参,并根据所有查询短语与所有文档的超参确定查询-文档相关度矩阵与其近似矩阵的相似度函数;
通过最大期望算法求得相似度函数的最大值;
根据查询-文档相关度矩阵与相似度函数的最大值获得近似矩阵作为矩阵分解结果。
在一些实施方式中,所述计算稀疏度包括:
获取矩阵内所有元素的值;
生成矩阵内所有元素的稀疏函数,当元素值大于1时稀疏函数为1,当元素值小于等于1时稀疏函数为0;
根据矩阵内所有元素的稀疏函数之和计算矩阵的稀疏度。
在一些实施方式中,所述根据该用户的长期行为、短期行为与行为权衡参数获得用户-文档关注度包括:
根据指定文档与其他文档间的欧氏距离与用户短期行为中当前检索任务下所有点击文档的集合确定该用户在当前检索任务下对指定文档的关注度;
根据用户长期行为中该用户对所有文档的关注度与该用户对所有文档的点击次数确定该用户对指定文档的总体关注度;
使用预先确定的行为权衡参数调整该用户在当前检索任务下对指定文档的关注度与该用户对指定文档的总体关注度二者所占权重,获得用户-文档关注度。
在一些实施方式中,当该用户不存在可供读取的长期行为或短期行为记录时,执行以下步骤:
检索提交过与该用户相同查询短语的用户,生成相似用户群;
在相似用户群中选取提交相同查询短语次数最多的用户作为最相似用户,当存在多个提交相同查询短语次数最多的用户时,选取长期行为或短期行为记录最多的用户作为最相似用户;
根据最相似用户的长期行为或短期行为模拟该用户的长期行为或短期行为。
在一些实施方式中,当该用户出现于训练集中时,所述生成该用户的排序权衡参数包括:
从0到1逐渐调节排序权衡参数;
依次使用每个排序权衡参数进行排序,并获得用户反馈检索效果;
选择检索效果最好的排序权衡参数存入训练集。
在一些实施方式中,当该用户未出现于训练集中时,所述生成该用户的排序权衡参数包括:
检索提交过与该用户相同查询短语的用户,生成相似用户群;
在相似用户群中选取提交相同查询短语次数最多的用户作为最相似用户,当存在多个提交相同查询短语次数最多的用户时,选取长期行为或短期行为记录最多的用户作为最相似用户;
根据最相似用户与相似用户群其他用户间的欧氏距离与相似用户群各用户的排序权衡参数确定该用户的排序权衡参数。
在一些实施方式中,所述根据查询-文档相关度、用户-文档关注度与排序权衡参数确定检索结果中各文档的相关度,为使用该用户的排序权衡参数调整该用户的查询短语的查询-文档相关度与该用户的用户-文档关注度二者所占权重,获得各文档的相关度。
从上面所述可以看出,本发明实施例提供的技术方案通过对用户检索任务中的每个查询短语以及每个查询短语中的每个查询字进行贝叶斯概率矩阵分解,获得查询-文档相关度,根据用户的长期行为、短期行为与行为权衡参数获得用户-文档关注度,根据查询-文档相关度、用户-文档关注度与排序权衡参数确定检索结果中各文档的相关度并排序的技术手段,提高个性化信息检索排序模型的准确率,并可以不依赖于查询和文档的具体内容工作。
基于上述目的,本发明还提出了一种能够针对不同用户或不同类型的用户进行个性化信息检索方法的第二个实施例。
在根据本发明实施例提出的基于用户行为分析的个性化信息检索排序模型中,本发明实施例同时考虑用户的长期行为和短期行为来预测用户的检索意图。本发明实施例完全依赖于用户在点击文档的停留时间来估计查询与文档的相关度以及预测用户的关注点。
本发明实施例要解决的技术问题本质上是信息检索中文档的再排序问题(Document Re-ranking,DRR)。在一个信息检索过程中以下信息已经给定:
(1)用户u在一个信息检索任务下提交T个查询{q1,q2,...,qT},每个查询qi由一组查询字构成,即qi=(wi1,wi2,...,wim),i=1,2,...,T。
(2)针对这个查询任务下的最后一个查询qT,信息检索系统返回一组初始信息检索结果列表,包含N个文档,即(dT1,dT2,...,dTN),这N个文档将被各种算法进行重排序。
个性化信息检索文档重排序任务(DRR)的目的是:针对每个查询q,挖掘给定用户u的关注,对与q相关的信息检索系统返回的N个文档进行重新排序,从而将用户关注的和与查询相关的文档排在检索结果列表的靠前位置,提高信息检索准确率。
上表示出的是本发明实施例提出的模型中使用的部分重要符号。在信息检索文档重排序任务(DRR)中,给定用户user,查询query以及待排序的文档(或者网页)URLs之间的关系,用户u提交了一个查询q,信息检索系统对于这个用户提交的查询返回N个文档d作为检索结果。本发明实施例的目的是重新排序这N个文档。由于在文档重新排序之前,变量u和q已知,因此排序文档的依据可以用概率P(d|q,u)来表示,即给定一个用户u,提交一个查询q,判断文档d与查询的相关度,并根据此相关度对文档进行排序。因此,DRR任务的目的就是针对每个查询,计算对应每个文档的相关度,该相关度可以用模型估计得到的文档与查询相关的概率来表示,即p(d|q,u)。
本发明实施例提出基于用户行为分析的个性化信息检索排序模型来估计排序文档的相关度得分p(d|q,u)为:
p(u,q,d)=p(u)·p(q|u)·p(d|q,u) (1)
其中u表示用户,口表示查询以及d表示文档。结合DRR任务的目的,即给定用户u和查询q,计算文档与查询的相关的概率,即p(d|q,u)。因此,根据公式(1)以及贝叶斯准则可以得到:
对于给定的用户和查询进行文档的再排序,公式(2)中的概率p(u)和p(q|u)对不会对文档的排序顺序产生影响。因此,根据公式(2),本发明实施例进一步得到:
p(d|q,u)∝p(q,u|d)·p(d) (3)
本发明实施例使用混合模型来计算p(q,u|d):
p(q,u|d)=(1-λ)·p(q|d)+λ·p(u|d) (4)
其中λ是一个自由参数,p(q|d)表示查询q和文档d相关的概率,p(u|d)表示用户u对文档d的关注程度。因此根据公式(3)和公式(4),本发明实施例进一步得到:
p(d|q,u)∝p(d)·((1-λ)·p(q|d)+λ·p(u|d)) (5)
=(1-λ)·p(d,q)+λ·p(d,u)
针对本发明实施例要解决的DRR问题,在文档重排序之前,用户和查询已经给定,因此,可以将公式(6)中的联合概率p(d,q)p(d,u)表示成给定用户和查询的条件概率。于是,本发明实施例将p(d|q,u)表示成:
p(d|q,u)∝(1-λ)·p(d|q)·p(q)+λ·p(d|u)·p(u) (6)
本发明实施例进一步假设p(q)和p(u)是均匀分布的,公式(6)中的p(d|q,u)可以直接由公式(7)估计而得:
p(d|q,u)∝(1-λ)·p(d|q)+λ·p(d|u) (7)
其中,概率p(d|q)和p(d|u)可以采用贝叶斯概率矩阵分解,即Bayesianprobabilistic matrix factorization(BPMF),在训练集数据上估计得到。
为了计算查询q与文档d的相关度,即p(d|q),本发明实施例把所有用户的行为信息都考虑在内,然后利用贝叶斯概率矩阵分解来求得文档在每个查询上的相关度概率分布。为了缓解实验数据稀疏问题,本发明实施例利用了两个不同层次的贝叶斯概率矩阵分解方法来求解p(d|q),即查询短语层次和查询字层次。在采用贝叶斯概率矩阵分解方法来求解p(d|q)时,查询字层次的查询文档相关度矩阵将比查询词层次的查询文档相关度矩阵更加密集。为了验证该方法的合理性,本发明实施例首先定义了矩阵的稀疏度。比如,一个m×n维的矩阵Xm×n,稀疏度sparseness为:
其中
xij是矩阵Xm×n中的一个元素。通过实验发现,查询词层次的查询文档相关度矩阵的稀疏度为71%,然而查询字层次的查询文档相关度矩阵的稀疏度为43%,表明基于贝叶斯概率矩阵分解方法,采用查询字层次的查询文档相关度矩阵将更有利于估计文档与查询的相关度概率。对于查询词层次的查询文档相关度矩阵,p(d|q)能够直接通过贝叶斯概率矩阵分解方法返回;而对于查询字层次的查询文档相关度矩阵,根据统计语言模型,可以假设查询字之间是相互独立的,因此p(d|q)可以通过如下表达式获得:
其中,N(wi,q)是查询q中查询字wi出现的次数。此时,p(d|wi)可以通过在查询字层次的查询文档相关度矩阵上采用贝叶斯概率矩阵分解方法获得。
为了计算公式(7)中的p(d|u),本发明实施例首先建立用户与文档的关注程度矩阵,然后同样采用贝叶斯概率矩阵分解获得每个用户对所有文档的关注程度分布。具体而言,在进行文档重排序时,每个特定用户的长期行为和短期行为被线性地整合在一起,如公式(11)所示:
p(d|u)=(1-ω)·p(d|u)s+ω·p(d|u)l (11)
其中,p(d|u)s表示用户u在当前信息检索任务下对文档d的关注程度,这由用户的当前行为估计而得;p(d|u)l表示用户u对文档d的总体关注程度,这由用户在训练阶段中长期的行为分析而得;ω为一个自由参数,控制两者的权重。这种线性整合方法已被成功地用来预测用户的关注模型。
综上所述,采用查询词层次的贝叶斯概率矩阵分解方法,在假设用户行为和查询属性都是均匀分布的基础上,对文档进行重排序的最终排序依据为:
p(d|q,u)∝(1-λ)·p(d|q)+λ·((1-ω)·p(d|u)s+ω·p(d|u)l) (12)
否则,如果用户行为和查询属性不均匀分布,将得到:
p(d|q,u)∝ (13)
∝(1-λ)·p(d|q)·p(q)+λ·((1-ω)·p(d|u)s+ω·p(d|u)l)·p(u)
而采用查询字层次的贝叶斯概率矩阵分解方法,同样如果假设用户行为和查询属性都是均匀分布,本发明实施例将得到:
否则有:
在模型构建过程中,必须要解决一个用户的冷启动问题,即当一个新用户提交一个查询时,训练数据集中该用户的历史行为记录无法获取,如何计算概率p(d|u)。为了解决该问题,本发明实施例首先找到与当前用户最相似的一组用户,他们在训练阶段也提交过类似查询,然后利用这组相似用户行为记录模拟生成当前用户的历史行为记录。具体而言,对于一个新用户u,提交的测试查询q,本发明实施例首先通过函数Uc←ψu(q)找到一组在训练阶段提交了同样查询的相似用户Uc,然后选择训练集中一个与当前新用户最相似的老用户:
其中函数φ(ui,q)返回在训练集中用户ui提交查询q的次数。当发现有不止一个用户提交了最多次数的q时,本发明实施例选取行为最丰富的那个用户为最相似用户,比如最多的点击行为。简言之,该方法利用了用户在当前信息检索任务下的查询找到类似的老用户,来估计用户的关注模型。
本发明实施例采用贝叶斯概率矩阵分解方法,即Bayesian probabilisticmatrix factorization来估计文档和查询的相关度,同时也用该方法来预测用户对文档的关注程度。比如,在采用贝叶斯概率矩阵分解方法来估计一个文档d和一个查询q的相关度时,我们首先把所有用户提交查询q,然后点击浏览文档q的时间累加起来,假设时间总和为t,然后采用
来标记文档d和查询q的相关度,其中是取整函数。通过这种方式,本发明实施例可以构建一个查询与文档的相关度矩阵RQD,在这个矩阵中,每个元素表示对应查询与对应文档的相关度。同时在矩阵RQD中,存在不少0,即通过训练数据信息,无法直接获取文档d和查询q的相关度,于是贝叶斯概率矩阵分解方法就被用于这个相关度矩阵RQD,使得原始矩阵中每个位置获得一个非零值,也就是说,通过贝叶斯概率矩阵分解方法可以估计每个查询与每个文档的相关度,从而解决了原始矩阵稀疏的问题。
通过BPMF,原始的查询与文档的相关度矩阵RQD将被一个近似矩阵R* QD所取代:
其中,与分别表示查询和文档的隐式特征矩阵,而Nq,Md和kf分别是所有查询,文档和隐式特征的个数。
近似矩阵R* QD中每个元素值的分布是在最小化如下模型参数和超参过程中计算而得:
其中,ΘQ={μQ,ΣQ}和ΘD={μD,ΣD}分别是查询和文档的超参;并假设查询和文档上的分布向量服从高斯分布;以及Θ0={μ0,Σ0,W0}是一个Wishart分布超参,μ0,Σ0和W0是分布参数。另外,由于假设先验概率是服从高斯分布的,超参的更新只要一个简单的EM算法实现,这也导致当Gibbs采样的次数相对较小时,算法的复杂度能够控制在O(Nq+Md)。
本发明实施例通过一个实例来描述EM算法的过程。假设本发明实施例已经构建好查询与文档的相关度矩阵RQD,有Nq个查询和Md个文档组成,目的是采用引入隐式随机变量z来让矩阵RQD去稀疏化,即矩阵中每个元素都是非零的值,最终生成模型p(RQD,z)。本发明实施例首先引入近似矩阵与原始矩阵的相似度作为目标函数
其参数为θ={ΘQ,ΘD},由于无法直接求解参数θ的最大值,因此EM算法先通过E步骤构建相似度函数l(θ)的区域边界值,再通过M步骤最优化该边界值,以此不断循环,直至找到最优参数。在每一个EM算法循环中,假设隐式特征符合高斯分布,因此基于Jensen’s不等式原理,本发明实施例有:
于是,E算法步骤为:
φi(zi):=p(zi|RQD(i):θ) (22)
M算法步骤为:
通过上述E步骤和M步骤,本发明实施例可以得到可能性目标函数l(θ)的最大值。至此,查询与文档相关度矩阵的稀疏化问题得以解决,同时获得了每个查询与每个文档的相关度概率。
采用同样的方法,本发明实施例可以构建查询字与文档的相关度矩阵RWD,用户与文档的关注程度矩阵,再通过BPMF生成对应矩阵的近似矩阵R* WD和R* UD,从而得到查询字与文档的相关度概率以及用户对文档的关注概率。本发明实施例采用BPMF方法,是因为BPMF方法能成功地被用在较大规模的数据集上,同时能取得比其他现有技术方法更好的概率估计准确性。
在信息检索结果重排序过程中,用户的短期行为,更具体地说,用户在当前信息检索任务中,先前提交的查询以及点击的一些返回结果,能提供较为准确的用户信息检索意图。为了预测用户当前的信息检索意图,本发明实施例把用户在当前信息检索任务中所有点击的文档收集起来计算公式(11)至公式(15)中的概率p(d|u)s,具体如下:
其中,Ds是用户在当前信息检索任务下所有点击文档的集合,同时
取决于待排序文档d和已点击文档di的相似度,另外
是一个归一化因子,Ds\{di}表示文档集合Ds中不包括文档di的一个子集,而Dis(dj,d)给出的是文档di和d之间的欧式距离,文档di和d的向量表示已经通过BPMF方法计算而得。
对于用户的长期行为,本发明实施例通过公式(27)来计算概率p(d|u)l:
其中,c(dj,u)表示用户u在训练阶段点击文档dj的次数,同样概率p(dj|u)通过BPMF方法计算而得。
在信息检索文档重排序过程中,需要计算每个文档的排序得分,传统的个性化信息检索排序方法采用一个固定的参数λ来整合用户对文档的关注程度和文档与查询的固有相似度。这个方法已经取得了不错的信息检索排序质量。然而,本章将采用一个自适应参数来动态地调节整合的权重,因为本发明实施例认为,用户的行为之间彼此差异较大,采用一个固定值的参数可能会降低某些排序性能。为此,本发明实施例提出一个自适应的解决方法,具体而言,该方法能对每个测试用户u产生一个特定的权重λ,该权重值取决于训练阶段中一组相似用户的行为。
首先在训练阶段,对于每个用户u,本发明实施例从0到1逐步调节λ,步长为0.1,使得对于用户u的检索效果最佳,即
这样每个用户将获得一个最佳的λ值,即λ*。然后在测试阶段,对于一个在训练集中出现过的用户,本发明实施例直接使用公式(28)中的λ*来计算每个文档的排序得分;而对于一个新用户本发明实施例首先通过公式(16)找到一个在训练集中出现过的最相似的用户u*,然后选择一组与用户u*最相似的用户组G,包含Nu个用户。最后,自适应的权重λ通过
来获取并赋予新用户u,其中
取决于用户u*与用户组G中用户的相似度,而
是一个归一化因子,是用户ui对应的最佳权重值。
在该方法中,同样每个用户采用一个关注概率向量表示,该向量通过对用户与文档的偏好矩阵使用BPMF方法获得。至此用户的行为模型建立完成,在测试阶段每个文档的排序得分能够通过公式(11)至公式(15)计算而得,完成用户提交查询后对信息检索系统初始返回结果进行重排序,来提高信息检索准确率。
基于上述目的,根据本发明的第三个实施例,提供了一种执行所述个性化信息检索方法的电子设备的一个实施例。
所述执行所述个性化信息检索方法的电子设备包括至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述任意一种方法。
如图2所示,为本发明提供的执行所述实时通话中的语音处理方法的电子设备的一个实施例的硬件结构示意图。
以如图2所示的电子设备为例,在该电子设备中包括一个处理器201以及一个存储器202,并还可以包括:输入装置203和输出装置204。
处理器201、存储器202、输入装置203和输出装置204可以通过总线或者其他方式连接,图2中以通过总线连接为例。
存储器202作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的所述个性化信息检索方法对应的程序指令/模块。处理器201通过运行存储在存储器202中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的个性化信息检索方法。
存储器202可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据个性化信息检索装置的使用所创建的数据等。此外,存储器202可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器202可选包括相对于处理器201远程设置的存储器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置203可接收输入的数字或字符信息,以及产生与个性化信息检索装置的用户设置以及功能控制有关的键信号输入。输出装置204可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器202中,当被所述处理器201执行时,执行上述任意方法实施例中的个性化信息检索方法。
所述执行所述个性化信息检索方法的电子设备的任何一个实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。所述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
此外,典型地,本公开所述的装置、设备等可为各种电子终端设备,例如手机、个人数字助理(PDA)、平板电脑(PAD)、智能电视等,也可以是大型终端设备,如服务器等,因此本公开的保护范围不应限定为某种特定类型的装置、设备。本公开所述的客户端可以是以电子硬件、计算机软件或两者的组合形式应用于上述任意一种电子终端设备中。
此外,根据本公开的方法还可以被实现为由CPU执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时,执行本公开的方法中限定的上述功能。
此外,上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
此外,应该明白的是,本发明所述的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的,非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM),该RAM可以充当外部高速缓存存储器。作为例子而非限制性的,RAM可以以多种形式获得,比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)以及直接RambusRAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现所述的功能,但是这种实现决定不应被解释为导致脱离本公开的范围。
结合这里的公开所描述的各种示例性逻辑块、模块和电路可以利用被设计成用于执行这里所述功能的下列部件来实现或执行:通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器,但是可替换地,处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP核、或任何其它这种配置。
结合这里的公开所描述的方法或算法的步骤可以直接包含在硬件中、由处理器执行的软件模块中或这两者的组合中。软件模块可以驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域已知的任何其它形式的存储介质中。示例性的存储介质被耦合到处理器,使得处理器能够从该存储介质中读取信息或向该存储介质写入信息。在一个替换方案中,所述存储介质可以与处理器集成在一起。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。在一个替换方案中,处理器和存储介质可以作为分立组件驻留在用户终端中。
在一个或多个示例性设计中,所述功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将所述功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外先、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
公开的示例性实施例,但是应当注公开的示例性实施例,但是应当注意,在不背离权利要求限定的本公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本公开的元素可以以个体形式描述或要求,但是也可以设想多个,除非明确限制为单数。
应当理解的是,在本发明中使用的,除非上下文清楚地支持例外情况,单数形式“一个”(“a”、“an”、“the”)旨在也包括复数形式。还应当理解的是,在本发明中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
Claims (9)
1.一种个性化信息检索方法,其特征在于,包括:
根据指定用户的检索任务生成检索结果;所述检索任务包括多个查询短语,所述每个查询短语包括多个查询字,所述对该用户检索任务中的每个查询短语以及每个查询短语中的每个查询字进行贝叶斯概率矩阵分解获得查询-文档相关度包括:对所述每个查询短语进行贝叶斯概率矩阵分解,获得查询短语层次的查询-文档相关度;对所述每个查询字进行贝叶斯概率矩阵分解,根据分解结果与查询字在其查询短语中出现的次数获得查询字层次的查询-文档相关度;分别计算查询短语层次的查询-文档相关度与查询字层次的查询-文档相关度的稀疏度,并将稀疏度值较小的层次定为查询-文档相关度;
对该用户检索任务中的每个查询短语以及每个查询短语中的每个查询字进行贝叶斯概率矩阵分解,获得查询-文档相关度;
获取该用户的长期行为与短期行为,并根据用户的长期行为、短期行为与行为权衡参数获得用户-文档关注度;
生成该用户的排序权衡参数,并根据查询-文档相关度、用户-文档关注度与排序权衡参数确定检索结果中各文档的相关度;
根据检索结果中各文档的相关度对检索结果中的文档排序并返回用户。
2.根据权利要求1所述的方法,其特征在于,所述对该用户的每个查询短语或每个查询字进行贝叶斯概率矩阵分解包括:
获取该用户提交每个查询短语后浏览每个文档的时间,并根据该浏览时间建立查询-文档相关度矩阵;
获取所有查询短语与所有文档的超参,并根据所有查询短语与所有文档的超参确定查询-文档相关度矩阵与其近似矩阵的相似度函数;
通过最大期望算法求得相似度函数的最大值;
根据查询-文档相关度矩阵与相似度函数的最大值获得近似矩阵作为矩阵分解结果。
3.根据权利要求1所述的方法,其特征在于,所述计算稀疏度包括:
获取矩阵内所有元素的值;
生成矩阵内所有元素的稀疏函数,当元素值大于1时稀疏函数为1,当元素值小于等于1时稀疏函数为0;
根据矩阵内所有元素的稀疏函数之和计算矩阵的稀疏度。
4.根据权利要求1所述的方法,其特征在于,所述根据该用户的长期行为、短期行为与行为权衡参数获得用户-文档关注度包括:
根据指定文档与其他文档间的欧氏距离与用户短期行为中当前检索任务下所有点击文档的集合确定该用户在当前检索任务下对指定文档的关注度;
根据用户长期行为中该用户对所有文档的关注度与该用户对所有文档的点击次数确定该用户对指定文档的总体关注度;
使用预先确定的行为权衡参数调整该用户在当前检索任务下对指定文档的关注度与该用户对指定文档的总体关注度二者所占权重,获得用户-文档关注度。
5.根据权利要求4所述的方法,其特征在于,当该用户不存在可供读取的长期行为或短期行为记录时,执行以下步骤:
检索提交过与该用户相同查询短语的用户,生成相似用户群;
在相似用户群中选取提交相同查询短语次数最多的用户作为最相似用户,当存在多个提交相同查询短语次数最多的用户时,选取长期行为或短期行为记录最多的用户作为最相似用户;
根据最相似用户的长期行为或短期行为模拟该用户的长期行为或短期行为。
6.根据权利要求1所述的方法,其特征在于,当该用户出现于训练集中时,所述生成该用户的排序权衡参数包括:
从0到1逐渐调节排序权衡参数;
依次使用每个排序权衡参数进行排序,并获得用户反馈检索效果;
选择检索效果最好的排序权衡参数存入训练集。
7.根据权利要求1所述的方法,其特征在于,当该用户未出现于训练集中时,所述生成该用户的排序权衡参数包括:
检索提交过与该用户相同查询短语的用户,生成相似用户群;
在相似用户群中选取提交相同查询短语次数最多的用户作为最相似用户,当存在多个提交相同查询短语次数最多的用户时,选取长期行为或短期行为记录最多的用户作为最相似用户;
根据最相似用户与相似用户群其他用户间的欧氏距离与相似用户群各用户的排序权衡参数确定该用户的排序权衡参数。
8.根据权利要求1所述的方法,其特征在于,所述根据查询-文档相关度、用户-文档关注度与排序权衡参数确定检索结果中各文档的相关度,为使用该用户的排序权衡参数调整该用户的查询短语的查询-文档相关度与该用户的用户-文档关注度二者所占权重,获得各文档的相关度。
9.一种电子设备,其特征在于,包括至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710257165.0A CN107133290B (zh) | 2017-04-19 | 2017-04-19 | 一种个性化信息检索方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710257165.0A CN107133290B (zh) | 2017-04-19 | 2017-04-19 | 一种个性化信息检索方法与装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107133290A CN107133290A (zh) | 2017-09-05 |
CN107133290B true CN107133290B (zh) | 2019-10-29 |
Family
ID=59716002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710257165.0A Active CN107133290B (zh) | 2017-04-19 | 2017-04-19 | 一种个性化信息检索方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107133290B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107644080A (zh) * | 2017-09-21 | 2018-01-30 | 合肥集知网知识产权运营有限公司 | 一种基于概率检索模型的大数据专利检索方法 |
CN109815308B (zh) * | 2017-10-31 | 2021-01-01 | 北京小度信息科技有限公司 | 意图识别模型的确定及检索意图识别方法、装置 |
CN109063108B (zh) * | 2018-07-27 | 2020-03-03 | 北京字节跳动网络技术有限公司 | 搜索排序方法、装置、计算机设备和存储介质 |
CN110162535B (zh) * | 2019-03-26 | 2023-11-07 | 腾讯科技(深圳)有限公司 | 用于执行个性化的搜索方法、装置、设备以及存储介质 |
CN110275952A (zh) * | 2019-05-08 | 2019-09-24 | 平安科技(深圳)有限公司 | 基于用户短期兴趣的新闻推荐方法、装置及介质 |
CN110263226B (zh) * | 2019-05-10 | 2024-08-20 | 平安科技(深圳)有限公司 | 针对药品的数据库更新方法、装置及电子装置 |
CN110399459B (zh) * | 2019-07-16 | 2022-03-18 | 北京字节跳动网络技术有限公司 | 在线文档的搜索方法、装置、终端、服务器及存储介质 |
CN110569431A (zh) * | 2019-08-14 | 2019-12-13 | 深圳市赛为智能股份有限公司 | 舆情信息监测方法、装置、计算机设备及存储介质 |
CN111352937A (zh) * | 2020-02-14 | 2020-06-30 | 山东省科学院海洋仪器仪表研究所 | 一种海洋生态环境监测并行数据检索方法 |
CN112182050B (zh) * | 2020-09-30 | 2024-04-30 | 中国民航信息网络股份有限公司 | 一种用户查询请求的处理方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102364473A (zh) * | 2011-11-09 | 2012-02-29 | 中国科学院自动化研究所 | 融合地理信息与视觉信息的网络新闻检索系统及方法 |
CN102890711A (zh) * | 2012-09-13 | 2013-01-23 | 中国人民解放军国防科学技术大学 | 一种检索排序方法及系统 |
CN103902694A (zh) * | 2014-03-28 | 2014-07-02 | 哈尔滨工程大学 | 基于聚类和查询行为的检索结果排序方法 |
CN105159932A (zh) * | 2015-08-07 | 2015-12-16 | 南车青岛四方机车车辆股份有限公司 | 一种数据检索和排序系统和方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070208730A1 (en) * | 2006-03-02 | 2007-09-06 | Microsoft Corporation | Mining web search user behavior to enhance web search relevance |
-
2017
- 2017-04-19 CN CN201710257165.0A patent/CN107133290B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102364473A (zh) * | 2011-11-09 | 2012-02-29 | 中国科学院自动化研究所 | 融合地理信息与视觉信息的网络新闻检索系统及方法 |
CN102890711A (zh) * | 2012-09-13 | 2013-01-23 | 中国人民解放军国防科学技术大学 | 一种检索排序方法及系统 |
CN103902694A (zh) * | 2014-03-28 | 2014-07-02 | 哈尔滨工程大学 | 基于聚类和查询行为的检索结果排序方法 |
CN105159932A (zh) * | 2015-08-07 | 2015-12-16 | 南车青岛四方机车车辆股份有限公司 | 一种数据检索和排序系统和方法 |
Non-Patent Citations (2)
Title |
---|
信息检索中排序学习方法的研究;林原;《中国博士学位论文全文数据库 信息科技辑》;20131015(第10期);I140-14 * |
面向信息精准服务的信息检索与查询推荐方法研究;蔡飞;《中国博士学位论文全文数据库 信息科技辑》;20171215(第12期);I138-121 * |
Also Published As
Publication number | Publication date |
---|---|
CN107133290A (zh) | 2017-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107133290B (zh) | 一种个性化信息检索方法与装置 | |
Su et al. | Sample-efficient actor-critic reinforcement learning with supervised data for dialogue management | |
JP7343568B2 (ja) | 機械学習のためのハイパーパラメータの識別および適用 | |
Singh et al. | A novel model of selecting high quality pseudo-relevance feedback documents using classification approach for query expansion | |
US20200341988A1 (en) | Search ranking method and apparatus, electronic device and storage medium | |
US7877385B2 (en) | Information retrieval using query-document pair information | |
US8108374B2 (en) | Optimization framework for tuning ranking engine | |
CN108846050B (zh) | 基于多模型融合的核心工艺知识智能推送方法及系统 | |
US8010535B2 (en) | Optimization of discontinuous rank metrics | |
CN109299383B (zh) | 生成推荐词的方法、装置、电子设备及存储介质 | |
US20110208730A1 (en) | Context-aware searching | |
US20140149429A1 (en) | Web search ranking | |
CN109241243B (zh) | 候选文档排序方法及装置 | |
CN111723179B (zh) | 基于概念图谱的反馈模型信息检索方法、系统及介质 | |
US20210319359A1 (en) | Method and server for training machine learning algorithm for ranking objects | |
CN116822651A (zh) | 基于增量学习的大模型参数微调方法、装置、设备及介质 | |
CN109783709B (zh) | 一种基于马尔可夫决策过程和k-最近邻强化学习的排序方法 | |
WO2021051587A1 (zh) | 基于语意识别的搜索结果排序方法、装置、电子设备及存储介质 | |
CN113312523B (zh) | 字典生成、搜索关键字推荐方法、装置和服务器 | |
CN110442681A (zh) | 一种机器阅读理解的方法、电子设备及可读存储介质 | |
CN109815474B (zh) | 一种词序列向量确定方法、装置、服务器及存储介质 | |
JP6495206B2 (ja) | 文書概念ベース生成装置、文書概念検索装置、方法、及びプログラム | |
CN111159526B (zh) | 查询语句处理方法、装置、设备及存储介质 | |
CN111435378B (zh) | 查询结果的排序方法、装置、电子设备以及存储介质 | |
Truyen et al. | Probabilistic models over ordered partitions with applications in document ranking and collaborative filtering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |