CN107122469B - 基于语义相似度与时效性频率的查询推荐排序方法与装置 - Google Patents
基于语义相似度与时效性频率的查询推荐排序方法与装置 Download PDFInfo
- Publication number
- CN107122469B CN107122469B CN201710296992.0A CN201710296992A CN107122469B CN 107122469 B CN107122469 B CN 107122469B CN 201710296992 A CN201710296992 A CN 201710296992A CN 107122469 B CN107122469 B CN 107122469B
- Authority
- CN
- China
- Prior art keywords
- query
- word
- semantic similarity
- data set
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于语义相似度与时效性频率的查询推荐排序方法与装置包括:获取用户查询记录数据集并采集查询词前缀;根据查询词前缀生成查询推荐列表并确定时效性频率的查询字排序;根据用户查询记录数据集与训练用文本数据集计算查询词中第一查询字与其他查询字的语义相似度,并确定语义相似度的查询词排序;根据时效性频率排序、语义相似度排序与字词权衡参数获得查询推荐排序,并根据查询推荐排序对查询推荐列表中的每个查询词排序显示。本发明考虑到了查询字之间的语义相关度与查询频率随时间变化的情况,进而提升信息检索的预测准确率。
Description
技术领域
本发明涉及搜索领域,特别是指一种基于语义相似度与时效性频率的查询推荐排序方法与装置。
背景技术
信息检索能够帮助用户获取想要的信息,在用户提交一个查询后,返回用户一组相关的文档,解决用户的信息需求。查询推荐则是在用户进行信息检索过程中,当用户输入查询时,在只输入部分查询字符的情况下,系统预测用户的查询意图,推荐给用户一组查询候选词供其选择,从而帮助用户完成查询词的构建。这有利于用户节省用户输入查询的时间,同时帮助用户构建一个好的查询词,有利于获取准确的信息,进而实现信息系统的精准服务,提高用户的满意度。
现有的查询推荐排序模型主要基于查询推荐在过去一段时间内的查询频率来排序,这类方法虽能预测绝大部分用户的查询意图,使得查询推荐准确率较高,但该类方法忽略了查询词内部查询字之间的语义相似度。当用户构建一个查询词时,语义相似的查询字更容易被用户整合在一起构成一个查询词。换言之,语义相似度高的查询字构成的查询短语更符合用户构造查询短语的习惯。同时,用户在使用信息检索系统进行信息检索时,经常在输入完一个完整的查询字时,选择系统推荐的查询词,因此,查询字特别是查询词中的第一个查询字的频率可以反映当前信息检索用户普遍关注的问题,从而可以影响查询推荐的排序位置。另外,查询推荐的查询频率会随着时间的变化呈现比如周期性、急剧上升或者下降等趋势,这些信息将影响查询推荐排序的算法性能,但现有技术也没有予以考虑。
针对现有技术中忽略查询词内部查询字之间的语义相似度、查询推荐的查询频率会随着时间的变化而变化的问题,目前尚未有有效的解决方案。
发明内容
有鉴于此,本发明实施例的目的在于提出一种基于语义相似度与时效性频率的查询推荐排序方法与装置,能够考虑查询字之间的语义相关度与查询频率随时间变化的情况,进而提升信息检索的预测准确率。
基于上述目的,本发明实施例的一方面提供了一种基于语义相似度与时效性频率的查询推荐排序方法,包括:
获取用户查询记录数据集并采集查询词前缀;
根据查询词前缀生成查询推荐列表并确定时效性频率的查询字排序;
根据用户查询记录数据集与训练用文本数据集计算查询词中第一查询字与其他查询字的语义相似度,并确定语义相似度的查询词排序;
根据时效性频率排序、语义相似度排序与字词权衡参数获得查询推荐排序,并根据查询推荐排序对查询推荐列表中的每个查询词排序显示。
在一些实施方式中,所述确定时效性频率的查询字排序包括:
提取查询推荐列表所有查询词中的第一查询字;
从用户查询记录数据集中获取每个查询字在指定时间内的出现频率;
根据所有查询词的第一查询字与每个查询字在指定时间内的出现频率确定时效性频率的查询字排序。
在一些实施方式中,所述根据用户查询记录数据集与训练用文本数据集计算查询词中第一查询字与其他查询字的语义相似度包括:
根据用户查询记录数据集获得基于用户查询记录数据集的第一查询字与其他查询字之间的语义相似度;
根据训练用文本数据集获得基于训练用文本数据集的第一查询字与其他查询字之间的语义相似度;
根据基于用户查询记录数据集的第一查询字、其他查询字之间的语义相似度与基于训练用文本数据集的第一查询字与其他查询字之间的语义相似度与语义整合权衡参数确定查询词中第一查询字与其他查询字的语义相似度。
在一些实施方式中,所述根据用户查询记录数据集获得基于用户查询记录数据集的第一查询字与其他查询字之间的语义相似度包括:
使用用户查询记录数据集训练skip‐gram模型;
根据用户查询记录数据集训练的skip‐gram模型获得基于用户查询记录数据集的第一查询字与其他查询字之间的语义相似度。
在一些实施方式中,所述根据训练用文本数据集获得基于训练用文本数据集的第一查询字与其他查询字之间的语义相似度包括:
使用训练用文本数据集分别训练skip‐gram模型;
根据训练用文本数据集训练的skip‐gram模型获得基于训练用文本数据集的第一查询字与其他查询字之间的语义相似度。
在一些实施方式中,所述训练skip‐gram模型包括:
挖掘用户查询记录数据集与训练用文本数据集,获取每个查询字在指定长度窗口内出现的次数;
生成用户查询记录数据集与训练用文本数据集中每个查询字的向量表征;
根据提取的文字向量表示衡量查询字之间的语义相似度。
在一些实施方式中,所述根据基于用户查询记录数据集的第一查询字与其他查询字之间的语义相似度、基于训练用文本数据集的第一查询字与其他查询字之间的语义相似度、以及语义整合权衡参数确定查询词中第一查询字与其他查询字的语义相似度,为使用语义整合权衡参数调整基于用户查询记录数据集的、与基于训练用文本数据集的第一查询字与其他查询字之间的语义相似度二者所占权重获得查询词中第一查询字与其他查询字的语义相似度。
在一些实施方式中,所述确定语义相似度的查询词排序,为根据所有查询词的第一查询字与其他查询字的语义相似度的连积确定语义相似度的查询词排序。
在一些实施方式中,所述根据时效性频率排序、语义相似度排序与字词权衡参数获得查询推荐排序,为根据时效性频率排序与语义相似度排序的积获得查询推荐排序,其中,语义相似度排序受到字词权衡参数的修正影响。
基于上述目的,本发明实施例的另一方面还提供了一种电子设备,包括至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法。
从上面所述可以看出,本发明实施例提供的基于语义相似度与时效性频率的查询推荐排序方法与装置获取用户查询记录数据集并采集查询词前缀,生成查询推荐列表并确定时效性频率的查询字排序,计算查询词中第一查询字与其他查询字的语义相似度并确定语义相似度的查询词排序,获得查询推荐排序并对查询推荐列表中的每个查询词排序显示的技术手段,考虑到了查询字之间的语义相关度与查询频率随时间变化的情况,进而提升信息检索的预测准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的基于语义相似度与时效性频率的查询推荐排序方法的流程图;
图2为本发明提供的执行所述基于语义相似度与时效性频率的查询推荐排序方法的电子设备的一个实施例的硬件结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
基于上述目的,本发明实施例的第一个方面提出了一种能够针对不同用户或不同类型的节点进行基于语义相似度与时效性频率的查询推荐排序的基于语义相似度与时效性频率的查询推荐排序方法。图1示出的是本发明提供的基于语义相似度与时效性频率的查询推荐排序方法的第一个实施例的流程示意图。
如图1所示,基于语义相似度与时效性频率的查询推荐排序方法包括:
步骤S101,获取用户查询记录数据集并采集查询词前缀;
步骤S103,根据查询词前缀生成查询推荐列表并确定时效性频率的查询字排序;
步骤S105,根据用户查询记录数据集与训练用文本数据集计算查询词中第一查询字与其他查询字的语义相似度,并确定语义相似度的查询词排序;
步骤S107,根据时效性频率排序、语义相似度排序与字词权衡参数获得查询推荐排序,并根据查询推荐排序对查询推荐列表中的每个查询词排序显示。
在一些实施方式中,所述确定时效性频率的查询字排序包括:
提取查询推荐列表所有查询词中的第一查询字;
从用户查询记录数据集中获取每个查询字在指定时间内的出现频率;
根据所有查询词的第一查询字与每个查询字在指定时间内的出现频率确定时效性频率的查询字排序。
在一些实施方式中,所述根据用户查询记录数据集与训练用文本数据集计算查询词中第一查询字与其他查询字的语义相似度包括:
根据用户查询记录数据集获得基于用户查询记录数据集的第一查询字与其他查询字之间的语义相似度;
根据训练用文本数据集获得基于训练用文本数据集的第一查询字与其他查询字之间的语义相似度;
根据基于用户查询记录数据集的第一查询字、其他查询字之间的语义相似度与基于训练用文本数据集的第一查询字与其他查询字之间的语义相似度与语义整合权衡参数确定查询词中第一查询字与其他查询字的语义相似度。
在一些实施方式中,所述根据用户查询记录数据集获得基于用户查询记录数据集的第一查询字与其他查询字之间的语义相似度包括:
使用用户查询记录数据集训练skip‐gram模型;
根据用户查询记录数据集训练的skip‐gram模型获得基于用户查询记录数据集的第一查询字与其他查询字之间的语义相似度。
在一些实施方式中,所述根据训练用文本数据集获得基于训练用文本数据集的第一查询字与其他查询字之间的语义相似度包括:
使用训练用文本数据集分别训练skip‐gram模型;
根据训练用文本数据集训练的skip‐gram模型获得基于训练用文本数据集的第一查询字与其他查询字之间的语义相似度。
在一些实施方式中,所述训练skip‐gram模型包括:
挖掘用户查询记录数据集与训练用文本数据集,获取每个查询字在指定长度窗口内出现的次数;
生成用户查询记录数据集与训练用文本数据集中每个查询字的向量表征;
根据提取的文字向量表示衡量查询字之间的语义相似度。
在一些实施方式中,所述根据基于用户查询记录数据集的第一查询字与其他查询字之间的语义相似度、基于训练用文本数据集的第一查询字与其他查询字之间的语义相似度、以及语义整合权衡参数确定查询词中第一查询字与其他查询字的语义相似度,为使用语义整合权衡参数调整基于用户查询记录数据集的、与基于训练用文本数据集的第一查询字与其他查询字之间的语义相似度二者所占权重获得查询词中第一查询字与其他查询字的语义相似度。
在一些实施方式中,所述确定语义相似度的查询词排序,为根据所有查询词的第一查询字与其他查询字的语义相似度的连积确定语义相似度的查询词排序。
在一些实施方式中,所述根据时效性频率排序、语义相似度排序与字词权衡参数获得查询推荐排序,为根据时效性频率排序与语义相似度排序的积获得查询推荐排序,其中,语义相似度排序受到字词权衡参数的修正影响。
从上面所述可以看出,本发明实施例提供的基于语义相似度与时效性频率的查询推荐排序方法与装置获取用户查询记录数据集并采集查询词前缀,生成查询推荐列表并确定时效性频率的查询字排序,计算查询词中第一查询字与其他查询字的语义相似度并确定语义相似度的查询词排序,获得查询推荐排序并对查询推荐列表中的每个查询词排序显示的技术手段,考虑到了查询字之间的语义相关度与查询频率随时间变化的情况,进而提升信息检索的预测准确率。
基于上述目的,本发明实施例的第二个方面提出了另一种能够针对不同用户或不同类型的用户进行基于语义相似度与时效性频率的查询推荐排序的基于语义相似度与时效性频率的查询推荐排序方法。
查询推荐排序问题可以如下描述,假设用户u在信息检索过程中,输入了一个查询词前缀p,即一个由若干字母构成的字符串,QI表示一组查询推荐候选词,这些词都是以p为开始,然后查询推荐排序问题就是返回用户一组查询词的推荐列表QS,其中|QS|=N>0。在该列表中,每个查询词都属于QI,并且QS中查询词按照用户提交该查询的可能性进行排序,使得
达到最大化,q′是用户u最后提交的查询。这与传统的信息检索中文档排序很类似。表1给出了文档排序和查询推荐排序的比较。在文档排序中,给定查询qi,每个文档d用一个特征向量来表示,df=Φ(d,q),其中Φ是特征提取函数,m(i)是待排序文档个数,即|D|。在查询推荐排序中,给定输入前缀pi,每个查询q也用一个特征向量来表示,qf=φ(p,q),其中φ是特征提取函数,n(i)待排序查询词个数,即|Qc(pi)|。总的来说,文档排序中,输入查询词,返回用户一组相关的文档列表;查询推荐排序中,输入若干字符串,返回用户一组用户可能提交的查询词。
一种简单而有效的查询推荐排序方法是基于查询记录中查询推荐的查询次数,采用最大似然估计方法,预测用户提交每个查询推荐的概率,这种方法被称为Most PopularCompletion(MPC)模型,即
其中,f(q)是查询推荐q在查询记录Q中出现的次数,C(p)是一组查询推荐集合,每个查询推荐都以用户输入的查询前缀p为开始。MPC模型假设查询推荐的查询频率会保持不变,因此查询推荐可以根据它们在查询记录中的出现频率来排序,使得查询推荐性能效果最佳。
在MPC模型中,给定一个查询输入前缀,查询推荐只根据查询推荐的频率进行排序,因此不同用户输入相同的查询前缀,将获得相同的查询推荐列表。但是,不同用户的关注爱好存在差异,因此,考虑用户的个人偏好对查询推荐进行排序,将有可能提高查询推荐方法的性能,从而进一步提高用户的信息检索满意度。
另外,MPC模型假设查询频率的分布与时间无关,即未来查询频率的分布与之前观测到的保持一致。其实不然,查询推荐的查询频率会随着时间的变化呈现比如周期性、急剧上升或者下降等趋势,这些信息将影响查询推荐排序的算法性能。
本发明实施例给出的查询推荐排序模型构建的具体步骤主要由两部分构成:第一步,根据时效性查询字频率返回一组查询字频率高的查询字,这些查询字是查询词的第一个字,并且在过去一段时间内的查询记录中经常出现;第二步,根据查询字之间的语义相似度将查询词重新排序。
本发明实施例以一个最简单的贝叶斯网络(Bayesian Network)来表示在查询推荐排序中一组随机变量的条件依赖关系,这组随机变量包括输入的查询前缀p,查询词的第一个查询字w以及查询词q。信息检索用户通常在输入完查询词的前缀或者查询词的第一个查询字后,才使用查询推荐服务选取何时的推荐查询,因此从基本的概率论可知,联合概率p(p,w,q)可以用一组条件概率的乘积来表示:
p(p,w,q)=p(p)×p(w|p)×p(q|w,p) (6)
由于用户使用信息检索系统进行信息检索时,经常在输入完一个完整的查询字时,选择系统推荐的查询词,因此本发明实施例假设用户在输入第一个查询字后选择查询词。基于该假设,贝叶斯网络中的变量q只与变量w相关,即
p(q|w,p)=p(q|w) (7)
这样,贝叶斯网络就演化成一个马尔科夫链(Markov Chain),于是,联合概率p(p,w,q)就可以表示成
p(p,w,q)=p(p)×p(w|p)×p(q|w) (8)
同时,根据贝叶斯理论可以将p(p,w,q)表示成
p(p,w,q)=p(q,w|p)×p(p) (9)
因此结合公式(8)有
即
p(w|p)×p(q|w)=p(q,w|p) (11)
由于直接计算概率p(q,w|p)存在困难,本发明实施例在以往研究基础上,采用一种逼近方法来计算p(q,w|p),如下:
p(q,w|p)=λ×p(q|p)+(1-λ)×p(w|p) (12)
其中,λ是一个权衡参数,属于[0,1]。于是,当用户输入查询前缀p时,每个查询推荐的排序得分就可以表示成一个条件概率p(q|p),再根据上述公式(6)至公式(11)的推导,排序得分p(q|p)就表示成
对一个查询推荐的排序问题,由于公式(13)分母中的λ值并不影响查询推荐之间的相对顺序,因此,最终的查询推荐排序得分可以简化为
p(q|p)∝p(w|p)×(p(q|w)+λ-1) (14)
其中,0≤λ≤1,p(w|p)表示用户输入查询前缀p后,生成查询字w的概率,而p(q|w)表示产生第一个查询字w后生成查询词q的概率。为了计算这些概率值,本发明实施例采用最大似然估计(Maximum-Likelihood Estimation,MLE)来近似,p(w|p)主要依赖于查询字的在一段时间内的出现次数,而p(q|w)则主要依赖于查询字之间的语义相似度。
查询推荐排序问题本质上是一个重排序问题,即本发明实施例首先根据用户输入的查询前缀,返回一组查询推荐列表L(p),包含N个查询推荐候选词,然后根据相关模型算法对这N个查询推荐候选词进行重新排序,最终返回给用户一个重排序了的查询推荐列表。
为了计算公式(14)中的概率p(w|p),首先根据L(p),提取一组查询字一共包含Nw个不同的查询字,查询字的获取根据如下公式获得:
在此基础上,给定用户输入的查询前缀p,根据查询字出现的频率计算p(w|p):
其中,f(w)为查询字w在一段时间内的出现频率。但是由于查询字的出现频率会随着时间的变化而变化,因此如果采用训练阶段所有的查询记录统计出现频率,将把查询频率的时效性忽略。
为计算(14)中的概率p(q|w),其中w是查询词q的第一个查询字,因此也可用w1表示,查询词q则表示成q={w1,w2,...,wn},基于统计语言模型中的独立假设,即查询字之间是相互独立的,因此,本发明实施例基于查询词的第一个查询字w与查询词的其他查询字来计算语义相似度Ssem如下:
为了计算概率p(wi|w1),本发明实施例在大量的文本数据集和查询记录中挖掘查询字wi与w1之间的语义关系。
Skip‐gram模型能有效地从大量的文本文档中,通过挖掘各个字在一定长度的窗口内共同出现的次数,训练产生文本中每个字的向量表征,基于提取的文字向量表示,每个字之间的语义相似度将得以衡量。本发明实施例提出的查询推荐排序中同样基于Skip‐gram模型获取查询词中查询字w1与其他查询字之间的语义关系。Skip‐gram模型训练的目标是通过最大化如下概率平均值,将每个查询字用一个合理的向量表示,然后基于该向量能预测与查询字接近的其他查询字:
其中,Tr是训练的文本数目,cs是训练文档的尺寸窗口大小,wt是某个查询字,wt+j是与查询字wt距离在j个位置的其他查询字。本发明实施例在Google‐News文本数据集上训练Skip‐gram模型,Google‐News文本数据集包含了数以亿计的文本语句。本发明实施例将每个语句按照顺序用一组字来表示,即ws1,ws2,...,wsT,然后输入至Skip‐gram模型。通过这种方式获取了查询字的向量表示,然后基于余弦函数计算两个向量的相似度,获取查询字之间的语义相似度得分,或称相似的概率Sr(wi,w1),其中wi∈q,w1是查询词q的第一个查询字。
但是由于Skip‐gram模型是一个高度依赖于训练文本数据集的统计语言模型,即要表征的查询字必须在训练文本数据集里出现过,也就是说,无法用向量表示一个文本中不存在的查询字。由于信息检索中的用户的查询有时相当孤僻,因此可能无法直接采用在Google‐News文本数据集上训练的Skip‐gram模型来表征所有查询字。为解决这一问题,本发明实施例采用同样的方式,针对搜集到的用户查询记录,训练Skip‐gram模型,这样确保测试阶段的每个查询中的查询字能被Skip‐gram模型的向量表示。基于用户查询记录生成的Skip-gram模型,同样可以计算查询词q中第一个查询字w1与其他查询字wi∈q之间的语义相似度,以Sq(wi,w1)表示。最后,公式(17)中的查询字之间的语义相似度p(wi|w1)通过如下计算而得:
p(wi|w1)=ω×Sr(wi,w1)+(1-ω)×Sq(wi,w1) (19)
其中,Sr(wi,w1)是基于Google-News文本数据集训练获得的查询字w1与其他查询字wi∈q之间的语义相似度,Sq(wi,w1)基于用户查询记录数据集训练获得的查询字w1与其他查询字wi∈q之间的语义相似度,采用ω来线性整合,获取最终查询字之间的语义相似度,ω是一个权衡参数,在[0,1]之间。基于公式(17)和公式(19)有
至此,根据公式(16)和公式(20)可以计算公式(14)中的概率p(q|p),即当用户输入查询前缀p时,根据概率p(q|p)的大小返回用户一组排序了的查询查询推荐。
从上面所述可以看出,本发明实施例提供的基于语义相似度与时效性频率的查询推荐排序方法与装置获取用户查询记录数据集并采集查询词前缀,生成查询推荐列表并确定时效性频率的查询字排序,计算查询词中第一查询字与其他查询字的语义相似度并确定语义相似度的查询词排序,获得查询推荐排序并对查询推荐列表中的每个查询词排序显示的技术手段,考虑到了查询字之间的语义相关度与查询频率随时间变化的情况,进而提升信息检索的预测准确率。
基于上述目的,本发明实施例的第三个方面提出了一种执行所述基于语义相似度与时效性频率的查询推荐排序方法的电子设备的一个实施例。
所述执行所述基于语义相似度与时效性频率的查询推荐排序方法的电子设备包括至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述任意一种方法。
如图2所示,为本发明提供的执行所述实时通话中的语音处理方法的电子设备的一个实施例的硬件结构示意图。以如图2所示的电子设备为例,在该电子设备中包括一个处理器201以及一个存储器202,并还可以包括:输入装置203和输出装置204。
处理器201、存储器202、输入装置203和输出装置204可以通过总线或者其他方式连接,图2中以通过总线连接为例。
存储器202作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的所述基于语义相似度与时效性频率的查询推荐排序方法对应的程序指令/模块。处理器201通过运行存储在存储器202中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的基于语义相似度与时效性频率的查询推荐排序方法。
存储器202可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据基于语义相似度与时效性频率的查询推荐排序装置的使用所创建的数据等。此外,存储器202可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器202可选包括相对于处理器201远程设置的存储器,这些远程存储器可以通过网络连接至节点。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置203可接收输入的数字或字符信息,以及产生与基于语义相似度与时效性频率的查询推荐排序装置的用户设置以及功能控制有关的键信号输入。输出装置204可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器202中,当被所述处理器201执行时,执行上述任意方法实施例中的基于语义相似度与时效性频率的查询推荐排序方法。
所述执行所述基于语义相似度与时效性频率的查询推荐排序方法的电子设备的任何一个实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read‐Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。所述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
此外,典型地,本公开所述的装置、设备等可为各种电子终端设备,例如手机、个人数字助理(PDA)、平板电脑(PAD)、智能电视等,也可以是大型终端设备,如服务器等,因此本公开的保护范围不应限定为某种特定类型的装置、设备。本公开所述的客户端可以是以电子硬件、计算机软件或两者的组合形式应用于上述任意一种电子终端设备中。
此外,根据本公开的方法还可以被实现为由CPU执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时,执行本公开的方法中限定的上述功能。
此外,上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
此外,应该明白的是,本文所述的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的,非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM),该RAM可以充当外部高速缓存存储器。作为例子而非限制性的,RAM可以以多种形式获得,比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)以及直接RambusRAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现所述的功能,但是这种实现决定不应被解释为导致脱离本公开的范围。
结合这里的公开所描述的各种示例性逻辑块、模块和电路可以利用被设计成用于执行这里所述功能的下列部件来实现或执行:通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器,但是可替换地,处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP核、或任何其它这种配置。
结合这里的公开所描述的方法或算法的步骤可以直接包含在硬件中、由处理器执行的软件模块中或这两者的组合中。软件模块可以驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD‐ROM、或本领域已知的任何其它形式的存储介质中。示例性的存储介质被耦合到处理器,使得处理器能够从该存储介质中读取信息或向该存储介质写入信息。在一个替换方案中,所述存储介质可以与处理器集成在一起。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。在一个替换方案中,处理器和存储介质可以作为分立组件驻留在用户终端中。
在一个或多个示例性设计中,所述功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将所述功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括RAM、ROM、EEPROM、CD‐ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外先、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
公开的示例性实施例,但是应当注公开的示例性实施例,但是应当注意,在不背离权利要求限定的本公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本公开的元素可以以个体形式描述或要求,但是也可以设想多个,除非明确限制为单数。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”(“a”、“an”、“the”)旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上所述的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。
Claims (10)
1.一种基于语义相似度与时效性频率的查询推荐排序方法,其特征在于,包括:
获取用户查询记录数据集并采集查询词前缀;
根据查询词前缀生成查询推荐列表并确定时效性频率的查询字排序;
根据用户查询记录数据集与训练用文本数据集计算查询词中第一查询字与其他查询字的语义相似度,并确定语义相似度的查询词排序;
根据时效性频率排序、语义相似度排序与字词权衡参数获得查询推荐排序,并根据查询推荐排序对查询推荐列表中的每个查询词排序显示;
对一个查询推荐的排序问题,由于公式
分母中的λ值并不影响查询推荐之间的相对顺序,因此,最终的查询推荐排序得分简化为:
p(q|p)∝p(w|p)×(p(q|w)+λ-1);
其中,p(q|p)为排序得分,0≤λ≤1,p(w|p)表示用户输入查询前缀p后,生成查询字w的概率,而p(q|w)表示产生第一个查询字w后生成查询词q的概率;为了计算这些概率值,采用最大似然估计来近似,p(w|p)主要依赖于查询字的在一段时间内的出现次数,而p(q|w)则主要依赖于查询字之间的语义相似度。
2.根据权利要求1所述的方法,其特征在于,所述确定时效性频率的查询字排序包括:
提取查询推荐列表所有查询词中的第一查询字;
从用户查询记录数据集中获取每个查询字在指定时间内的出现频率;
根据所有查询词的第一查询字与每个查询字在指定时间内的出现频率确定时效性频率的查询字排序。
3.根据权利要求1所述的方法,其特征在于,所述根据用户查询记录数据集与训练用文本数据集计算查询词中第一查询字与其他查询字的语义相似度包括:
根据用户查询记录数据集获得基于用户查询记录数据集的第一查询字与其他查询字之间的语义相似度;
根据训练用文本数据集获得基于训练用文本数据集的第一查询字与其他查询字之间的语义相似度;
根据基于用户查询记录数据集的第一查询字、其他查询字之间的语义相似度与基于训练用文本数据集的第一查询字与其他查询字之间的语义相似度与语义整合权衡参数确定查询词中第一查询字与其他查询字的语义相似度;
针对搜集到的用户查询记录,训练Skip-gram模型,这样确保测试阶段的每个查询中的查询字能被Skip-gram模型的向量表示;基于用户查询记录生成的Skip-gram模型,计算查询词q中第一个查询字w1与其他查询字wi∈q之间的语义相似度,以Sq(wi,w1)表示;最后,公式
中的查询字之间的语义相似度p(wi|w1)通过如下计算而得:
p(wi|w1)=ω×Sr(wi,w1)+(1-ω)×Sq(wi,w1)
其中,Ssem为语义相似度,q为查询词,w为基于查询词的第一个查询字,p为查询前缀,Sr(wi,w1)是基于Google-News文本数据集训练获得的查询字w1与其他查询字wi∈q之间的语义相似度,Sq(wi,w1)基于用户查询记录数据集训练获得的查询字w1与其他查询字wi∈q之间的语义相似度,采用ω来线性整合,获取最终查询字之间的语义相似度,ω是一个权衡参数,在[0,1]之间。
4.根据权利要求3所述的方法,其特征在于,所述根据用户查询记录数据集获得基于用户查询记录数据集的第一查询字与其他查询字之间的语义相似度包括:
使用用户查询记录数据集训练skip-gram模型;
根据用户查询记录数据集训练的skip-gram模型获得基于用户查询记录数据集的第一查询字与其他查询字之间的语义相似度。
5.根据权利要求3所述的方法,其特征在于,所述根据训练用文本数据集获得基于训练用文本数据集的第一查询字与其他查询字之间的语义相似度包括:
使用训练用文本数据集分别训练skip-gram模型;
根据训练用文本数据集训练的skip-gram模型获得基于训练用文本数据集的第一查询字与其他查询字之间的语义相似度。
6.根据权利要求4-5中任意一项所述的方法,其特征在于,所述训练skip-gram模型包括:
挖掘用户查询记录数据集与训练用文本数据集,获取每个查询字在指定长度窗口内出现的次数;
生成用户查询记录数据集与训练用文本数据集中每个查询字的向量表征;
根据提取的文字向量表示衡量查询字之间的语义相似度。
7.根据权利要求3所述的方法,其特征在于,所述根据基于用户查询记录数据集的第一查询字与其他查询字之间的语义相似度、基于训练用文本数据集的第一查询字与其他查询字之间的语义相似度、以及语义整合权衡参数确定查询词中第一查询字与其他查询字的语义相似度,为使用语义整合权衡参数调整基于用户查询记录数据集的、与基于训练用文本数据集的第一查询字与其他查询字之间的语义相似度二者所占权重获得查询词中第一查询字与其他查询字的语义相似度。
8.根据权利要求3所述的方法,其特征在于,所述确定语义相似度的查询词排序,为根据所有查询词的第一查询字与其他查询字的语义相似度的连积确定语义相似度的查询词排序。
9.根据权利要求1所述的方法,其特征在于,所述根据时效性频率排序、语义相似度排序与字词权衡参数获得查询推荐排序,为根据时效性频率排序与语义相似度排序的积获得查询推荐排序,其中,语义相似度排序受到字词权衡参数的修正影响。
10.一种电子设备,其特征在于,包括至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710296992.0A CN107122469B (zh) | 2017-04-28 | 2017-04-28 | 基于语义相似度与时效性频率的查询推荐排序方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710296992.0A CN107122469B (zh) | 2017-04-28 | 2017-04-28 | 基于语义相似度与时效性频率的查询推荐排序方法与装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107122469A CN107122469A (zh) | 2017-09-01 |
CN107122469B true CN107122469B (zh) | 2019-12-17 |
Family
ID=59726125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710296992.0A Active CN107122469B (zh) | 2017-04-28 | 2017-04-28 | 基于语义相似度与时效性频率的查询推荐排序方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107122469B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10803108B2 (en) * | 2017-12-20 | 2020-10-13 | International Business Machines Corporation | Facilitation of domain and client-specific application program interface recommendations |
CN108427756B (zh) * | 2018-03-16 | 2021-02-12 | 中国人民解放军国防科技大学 | 基于同类用户模型的个性化查询词补全推荐方法和装置 |
CN109063108B (zh) * | 2018-07-27 | 2020-03-03 | 北京字节跳动网络技术有限公司 | 搜索排序方法、装置、计算机设备和存储介质 |
CN109522474B (zh) * | 2018-10-19 | 2021-05-18 | 上海交通大学 | 基于交互序列数据挖掘深度用户相似性的推荐方法 |
CN111310069B (zh) * | 2018-12-11 | 2023-09-26 | 阿里巴巴集团控股有限公司 | 一种针对时效性搜索的评估方法及装置 |
CN111460248B (zh) * | 2019-01-19 | 2023-05-23 | 北京嘀嘀无限科技发展有限公司 | 用于线上到线下服务的系统和方法 |
CN110046298B (zh) * | 2019-04-24 | 2021-04-13 | 中国人民解放军国防科技大学 | 一种查询词推荐方法、装置、终端设备及计算机可读介质 |
CN110969006B (zh) * | 2019-12-02 | 2023-03-21 | 支付宝(杭州)信息技术有限公司 | 一种文本排序模型的训练方法和系统 |
CN111222058B (zh) * | 2020-01-06 | 2021-04-16 | 百度在线网络技术(北京)有限公司 | 查询自动补全的方法、装置、设备和计算机存储介质 |
CN111274359B (zh) * | 2020-01-20 | 2022-06-14 | 福州大学 | 基于改进vhred与强化学习的查询推荐方法及系统 |
CN111881179B (zh) * | 2020-07-20 | 2024-03-01 | 易通星云(北京)科技发展有限公司 | 数据匹配方法、装置及其设备、计算机存储介质 |
CN113139106B (zh) * | 2021-05-07 | 2022-03-15 | 杭州世平信息科技有限公司 | 一种保密检查的事件审核方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102253982A (zh) * | 2011-06-24 | 2011-11-23 | 北京理工大学 | 一种基于查询语义和点击流数据的查询建议方法 |
CN103970748A (zh) * | 2013-01-25 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 一种相关关键词推荐方法和装置 |
CN105027196A (zh) * | 2012-12-29 | 2015-11-04 | 格林伊登美国控股有限责任公司 | 自动语音识别系统中的快速词汇表外搜索 |
-
2017
- 2017-04-28 CN CN201710296992.0A patent/CN107122469B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102253982A (zh) * | 2011-06-24 | 2011-11-23 | 北京理工大学 | 一种基于查询语义和点击流数据的查询建议方法 |
CN105027196A (zh) * | 2012-12-29 | 2015-11-04 | 格林伊登美国控股有限责任公司 | 自动语音识别系统中的快速词汇表外搜索 |
CN103970748A (zh) * | 2013-01-25 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 一种相关关键词推荐方法和装置 |
Non-Patent Citations (2)
Title |
---|
"Diversifying Query Auto Completion";Fei Cai等;《ACM Transactions on Information Systems》;20160930;第34卷(第4期);第1-33页 * |
"predix-adaptive and time-sensitive personalized query auto completion";Fei Cai等;《IEEE Transactions on Knowledge and Data Engineering》;20160512;第28卷(第9期);第2452-2466页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107122469A (zh) | 2017-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107122469B (zh) | 基于语义相似度与时效性频率的查询推荐排序方法与装置 | |
CN109166017B (zh) | 基于重聚类的推送方法、装置、计算机设备及存储介质 | |
CN108829822B (zh) | 媒体内容的推荐方法和装置、存储介质、电子装置 | |
US9171078B2 (en) | Automatic recommendation of vertical search engines | |
US10437894B2 (en) | Method and system for app search engine leveraging user reviews | |
CN110019794B (zh) | 文本资源的分类方法、装置、存储介质及电子装置 | |
US8949227B2 (en) | System and method for matching entities and synonym group organizer used therein | |
CN106383836B (zh) | 将可操作属性归于描述个人身份的数据 | |
CN106446122B (zh) | 信息检索的方法、装置与计算设备 | |
CN102043843A (zh) | 一种用于基于目标应用获取目标词条的方法与获取设备 | |
CN110990533B (zh) | 确定查询文本所对应标准文本的方法及装置 | |
CN108319628B (zh) | 一种用户兴趣确定方法及装置 | |
CN112732870B (zh) | 基于词向量的搜索方法、装置、设备及存储介质 | |
CN107885717B (zh) | 一种关键词提取方法及装置 | |
Sun et al. | Feature-frequency–adaptive on-line training for fast and accurate natural language processing | |
JPWO2012096388A1 (ja) | 意外性判定システム、意外性判定方法およびプログラム | |
JP5952711B2 (ja) | 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法 | |
WO2020073526A1 (zh) | 基于信任网络的推送方法、装置、计算机设备及存储介质 | |
CN111859079B (zh) | 信息搜索方法、装置、计算机设备及存储介质 | |
CN111324705B (zh) | 自适应性调整关联搜索词的系统及其方法 | |
JP2010055155A (ja) | サーバ装置、情報処理方法およびプログラム | |
CN116204688B (zh) | 一种基于键入搜索词推荐用户搜索词的方法 | |
CN113282831A (zh) | 一种搜索信息的推荐方法、装置、电子设备及存储介质 | |
CN117150107A (zh) | 基于知识图谱的推荐方法、装置、计算机设备及存储介质 | |
JP5545876B2 (ja) | クエリ提供装置、クエリ提供方法及びクエリ提供プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |