CN104572836A - 一种确定候选查询序列的综合相关度的方法与装置 - Google Patents

一种确定候选查询序列的综合相关度的方法与装置 Download PDF

Info

Publication number
CN104572836A
CN104572836A CN201410758913.XA CN201410758913A CN104572836A CN 104572836 A CN104572836 A CN 104572836A CN 201410758913 A CN201410758913 A CN 201410758913A CN 104572836 A CN104572836 A CN 104572836A
Authority
CN
China
Prior art keywords
sequence
candidate query
query sequence
correlation
benchmark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410758913.XA
Other languages
English (en)
Inventor
谢双宾
赵万里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410758913.XA priority Critical patent/CN104572836A/zh
Publication of CN104572836A publication Critical patent/CN104572836A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的目的是提供一种确定特定应用中候选查询序列的综合相关度的方法与装置。其中,本发明通过从一特定应用的会话数据中获得基准查询序列以及与该基准查询序列相对应的一个或多个候选查询序列,并基于该(等)候选查询序列的各种相关度,确定该(等)候选查询序列与该基准查询序列的综合相关度,其中,候选查询序列的各种相关度包括以下至少任一项:1)候选查询序列与基准查询序列的共现相关度;2)候选查询序列与基准查询序列的相似相关度;3)候选查询序列对应于特定应用的需求相关度。本发明提出了一种针对特定应用来确定候选查询序列的综合相关度的方案,其不同于现有技术中用于通用搜索引擎的候选查询序列的确定方案。

Description

一种确定候选查询序列的综合相关度的方法与装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种确定特定应用中候选查询序列的综合相关度的技术。
背景技术
当前,互联网中存在诸如文档、音乐、视频、旅行等多种应用,用户可以通过访问每个应用来获得相应的特定内容。
具体应用中,其一般为用户提供了搜索框以在该应用中进行搜索,当用户在搜索框中输入关键字、关键词等基准查询序列时,当前应用可以为用户提供候选查询序列,以节省用户的输入成本并且帮助用户更快速地进行搜索。
然而,对于每个应用而言,目前缺乏确定该特定应用来提供与基准查询序列相对应的候选查询序列的方案。现有技术仅简单地借用了用于通用搜索引擎的候选查询序列,这些候选查询序列往往并不符合某特定应用的应用场景。例如,当用户在文档应用的搜索框中输入基准查询序列“韩寒”时,文档应用为用户提供的候选查询序列包括“韩寒身高”,而该候选查询序列显然不适宜作为文档应用的查询序列。
发明内容
本发明的目的是提供一种确定特定应用中候选查询序列的综合相关度的方法与装置。
根据本发明的一个方面,提供了一种确定特定应用中候选查询序列的综合相关度的方法,其中,该方法包括:
-从一特定应用的会话数据中获得基准查询序列以及与所述基准查询序列相对应的一个或多个候选查询序列;
-基于所述候选查询序列的各种相关度,确定所述候选查询序列与所述基准查询序列的综合相关度;
其中,所述相关度包括以下至少任一项:
-所述候选查询序列与所述基准查询序列的共现相关度;
-所述候选查询序列与所述基准查询序列的相似相关度;
-所述候选查询序列对应于所述特定应用的需求相关度。
根据本发明的另一个方面,还提供了一种确定特定应用中候选查询序列的综合相关度的装置,其中,该装置包括:
用于从一特定应用的会话数据中获得基准查询序列以及与所述基准查询序列相对应的一个或多个候选查询序列的装置;
用于基于所述候选查询序列的各种相关度,确定所述候选查询序列与所述基准查询序列的综合相关度的装置;
其中,所述相关度包括以下至少任一项:
-所述候选查询序列与所述基准查询序列的共现相关度;
-所述候选查询序列与所述基准查询序列的相似相关度;
-所述候选查询序列对应于所述特定应用的需求相关度。
与现有技术相比,本发明通过从一特定应用的会话数据中获得基准查询序列以及与该基准查询序列相对应的一个或多个候选查询序列,并基于该(等)候选查询序列的各种相关度,确定该(等)候选查询序列与该基准查询序列的综合相关度,其中,候选查询序列的各种相关度包括以下至少任一项:1)候选查询序列与基准查询序列的共现相关度;2)候选查询序列与基准查询序列的相似相关度;3)候选查询序列对应于特定应用的需求相关度。本发明提出了一种针对特定应用来确定候选查询序列的综合相关度的方案,其从一特定应用自身的相关特性进行考虑,以获得基准查询序列在该特定应用中的候选查询序列,从而不同于现有技术中用于通用搜索引擎的候选查询序列的确定方案。进一步地,本发明围绕特定应用(或具体应用),对候选查询序列与基准查询序列的综合相关度的确定综合考虑了候选查询序列的各种相关度,如从候选查询序列与基准查询序列之间的关联以及候选查询序列与特定应用之间的关联进行考虑,从而所确定的候选查询序列更符合相应应用的应用场景。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个实施例的一种确定特定应用中候选查询序列的综合相关度的方法流程图;
图2示出根据本发明另一个实施例的一种确定特定应用中候选查询序列的综合相关度的装置示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
本发明中确定特定应用中候选查询序列的综合相关度的方案可通过网络设备实现。具体地,网络设备从一特定应用的会话数据中获得基准查询序列以及与基准查询序列相对应的一个或多个候选查询序列;接着,网络设备基于该(等)候选查询序列的各种相关度,确定该(等)候选查询序列与基准查询序列的综合相关度;其中,所述相关度包括以下至少任一项:1)候选查询序列与基准查询序列的共现相关度;2)候选查询序列与基准查询序列的相似相关度;3)候选查询序列对应于特定应用的需求相关度。
在此,网络设备包括但不限于网络主机、单个网络服务器、多个网络服务器集合或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集合组成的一个超级虚拟计算机。
进一步地,本发明中,网络设备可作为整体,或由其中部分网络主机/服务器,甚至装置于一个或多个网络主机/服务器中的特定装置,具体如确定装置,来确定特定应用中候选查询序列的综合相关度。
图1示出根据本发明一个实施例的一种确定特定应用中候选查询序列的综合相关度的方法流程图。
如图1所示,在步骤S101中,网络设备从一特定应用的会话数据中获得基准查询序列以及与基准查询序列相对应的一个或多个候选查询序列;在步骤S102中,网络设备基于该(等)候选查询序列的各种相关度,确定该(等)候选查询序列与基准查询序列的综合相关度,其中,各种相关度包括以下至少任一项:1)候选查询序列与基准查询序列的共现相关度;2)候选查询序列与基准查询序列的相似相关度;3)候选查询序列对应于特定应用的需求相关度。
具体地,在步骤S101中,网络设备从一特定应用的会话数据中获得基准查询序列以及与基准查询序列相对应的一个或多个候选查询序列。
在此,特定应用意指本发明中所针对来进行数据采集和处理的具体应用,其包括但不限于基于文档、音乐、视频、旅行、餐饮等各垂直领域的应用。具体地,各特定应用并非仅体现为app形式,其也可以为web形式。
在此,本领域技术人员应能理解,“应用”是从功能角度进行描述的,只要其为实现一个或多个特定目的而进行相应的功能设计,如文库应用。文库应用可以理解为实现文档浏览、搜索、共享等目的的功能体,从而其既可以表现为如一手机app,也可以表现为如一特定网站。本文中,多以文库应用进行举例说明。
会话数据意指,用户设备与网络设备在一次或多次会话中彼此交互所产生的数据记录。在搜索场景下,会话数据中通常包含一个或多个查询序列、访问时间、用户设备标识信息等多种信息。
其中,用户设备包括但不限于任何一种可与用户通过键盘、虚拟键盘、触摸板、触摸屏以及声控设备等输入设备进行人机交互的电子产品,例如PC、笔记本电脑、手机、智能手机、PDA、平板电脑等。
查询序列意指用于搜索的字符串,其具体包括但不限于关键词、语句以及其他字符等。
网络设备可以获得一段时间内与大量用户进行交互的多个会话的会话数据,如最近两个月的文库应用中的会话数据。接着,网络设备过滤会话数据中的非查询序列,以获得每个会话中的查询序列。具体地,网络设备可以过滤会话数据中的访问时间、用户设备标识信息等冗余信息以获得每个会话中的一个或多个查询序列,进而将其中任意一个查询序列确定为基准查询序列,并查找其他包含该基准查询序列的会话,以将这些其他会话中的查询序列确定为与该基准查询序列相对应的候选查询序列。
例如,每个会话及其对应的查询序列如下表1所示:
会话 查询序列
1 韩寒、韩寒语录、韩寒青春
2 郭敬明、郭敬明小时代
3 韩寒、韩寒介绍
4 韩寒、郭敬明
表1
网络设备可将上表1中的任一个查询序列作为基准查询序列,如韩寒、郭敬明,这两个基准查询序列及其分别对应的候选查询序列如下表2所示:
基准查询序列 候选查询序列
韩寒 韩寒语录、韩寒青春、韩寒介绍、郭敬明
郭敬明 郭敬明小时代、韩寒
表2
本领域技术人员应能理解,表2所示出的基准查询序列以及相应的候选查询序列仅为举例性的,而并非穷举的。
优选地,网络设备还可以去除查询序列中的空格、“的”、“(”、“)”、“+”等无意义或意义很小的字符。这些字符对语义没有影响,并且网络设备所预先设定的查询规则一般也会过滤掉这些字符,因此这些字符对搜索结果也没有影响。
在步骤S102中,网络设备基于候选查询序列的各种相关度,确定候选查询序列与基准查询序列的综合相关度。
其中,候选查询序列的各种相关度包括但不限于以下至少任一项:
1)候选查询序列与基准查询序列的共现相关度。
在此,共现相关度用于从共同出现的角度来表征候选查询序列与基准查询序列的相关程度。
2)候选查询序列与基准查询序列的相似相关度。
在此,相似相关度用于从字符相似的角度来表征候选查询序列与基准查询序列的相关程度。
3)候选查询序列对应于特定应用的需求相关度。
在此,需求相关度用于表征候选查询序列在特定应用中的需求程度。
在此,候选查询序列与基准查询序列的综合相关度意指基于上述各种相关度中的任一项或至少两项之结合来最终确定的候选查询序列与基准查询序列之间的相关度。
具体地,候选查询序列的各种相关度可以通过多种方式确定。例如,网络设备可以通过查询预先保存的相关度参照表来确定候选查询序列的各种相关度。
其中,相关度参照表如以下表3所示:
表3
如表3所示,括号左侧为候选查询序列,括号内为基准查询序列。本领域技术人员应能理解,上表3所示出的相关度参照表仅为举例,而不应被视为对本发明的任何限制,任何现有其它相关度参照表或今后可能出现的相关度参照表如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
例如,相关度参照表也可以分别基于共现相关度、相似相关度、需求相关度来建立,从而网络设备通过分别查询共现相关度表、相似相关度表、需求相关度表来确定候选查询序列的各种相关度。
候选查询序列与基准查询序列的综合相关度也可以通过多种方式确定。例如,网络设备可以基于以下公式1来确定候选查询序列与基准查询序列的综合相关度:
f(w,s)=f1(w,s)+f2(w,s)+f3(w)   公式1
其中,w表示候选查询序列,s表示基准查询序列,f1(w,s)表示候选查询序列与基准查询序列的共现相关度,f2(w,s)表示候选查询序列与基准查询序列的相似相关度,f3(w)表示候选查询序列对应于特定应用的需求相关度,f(w,s)表示候选查询序列与基准查询序列的综合相关度。该综合相关度可以以一数值来表示,从而有时可被视为一个综合相关得分。
网络设备基于公式1确定的候选查询序列与基准查询序列的综合相关度如以下表4所示:
表4
表4中每个数值可以表示一候选查询序列与一基准查询序列的综合相关度。
本领域技术人员应能理解,公式1所示出的确定方式仅为举例,而不应被视为对本发明的任何限制,任何现有其它确定方式或今后可能出现的确定方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
例如,网络设备也可以仅基于任意一种候选查询序列的相关度来确定候选查询序列与基准查询序列的综合相关度,或者,网络设备也可以基于任意两种候选查询序列的相关度来确定候选查询序列与基准查询序列的综合相关度。
除上述查询相关度参照表来确定候选查询序列的相关度的方式以外,网络设备还可以通过其他方式确定候选查询序列的相关度,以下将进一步具体描述。
候选查询序列与基准查询序列的共现相关度
在此,共现相关度可以基于当前候选查询序列与基准查询序列的共现频率以及各候选查询序列与该基准查询序列的共现频率中的最大值来确定。
具体地,网络设备可以基于以下公式2来确定候选查询序列与基准查询序列的共现相关度:
f 1 = ( w , s ) = lo g a ( freq ( w , s ) + 1 ) log a ( max _ freq + 1 )    公式2
其中,w表示候选查询序列,s表示基准查询序列,freq(w,s)表示候选查询序列与基准查询序列的共现频率,max_freq表示各候选查询序列与该基准查询序列的共现频率中的最大值,a为一常数,f1(w,s)表示候选查询序列与基准查询序列的共现相关度。
在此,freq(w,s)可基于候选查询序列与基准查询序列共同出现在同一会话中的次数以及该基准查询序列所属会话的总数量来确定。例如,候选查询序列与基准查询序列共同出现在同一会话中的次数为400,包含该基准查询序列的会话的总数量为10000,则freq(w,s)=400/10000=0.04。
max_freq可基于所有候选查询序列与该基准查询序列共同出现在同一会话中的次数的最大值以及基准查询序列所属会话的总数量来确定。例如,所有候选查询序列与该基准查询序列共同出现的会话的次数的最大值为8000,包含该基准查询序列的会话的总数量为10000,则max_freq=8000/10000=0.8。
本领域技术人员应能理解,由于公式2中分子和分母的底数均为a,公式2也可以被化简为公式2’:
f1(w,s)=logmax_freq+1(freq(w,s)+1)   公式2’
候选查询序列与基准查询序列的相似相关度
在此,相似相关度基于候选查询序列的长度、基准查询序列的长度以及该候选查询序列与该基准查询序列中相同字符串的长度来确定。
具体地,网络设备可以基于以下公式3来确定候选查询序列与基准查询序列的相似相关度:
f 2 ( w , s ) = com _ len ( w , s ) len ( w ) × len ( s )    公式3
其中,w表示候选查询序列,s表示基准查询序列,len(w)表示候选查询序列的长度,len(s)表示基准查询序列的长度,comm_len(w,s)表示候选查询序列与该基准查询序列中相同字符串的长度,f2(w,s)表示候选查询序列与基准查询序列的相似相关度。
例如,候选查询序列“郭敬明小时代”的长度为6,基准查询序列“郭敬明”的长度为3,候选查询序列与该基准查询序列中相同字符串的长度为3,因此, f 2 = ( w , s ) = 3 3 × 6 = 0.167 .
候选查询序列对应于特定应用的需求相关度
在此,需求相关度基于特定应用中与候选查询序列相关的搜索结果的数量来确定。
例如,对于文档类应用,搜索结果为候选查询序列所对应的文档,且文档可被广义理解为包括网页。对于视频类应用,搜索结果为候选查询序列所对应的视频,或者,搜索结果也可以为包含视频的网页。
具体地,网络设备可以基于以下公式4来确定候选查询序列对应于特定应用的需求相关度:
f 3 ( w ) = log a ( N ( w ) + 1 ) log a M    公式4
其中,w表示候选查询序列,N(w)表示特定应用中与候选查询序列相关的搜索结果的数量,M为一常数,a为一常数,f3(w)表示候选查询序列对应于特定应用的需求相关度。
例如,对于文档类应用,N(w)可以具体为文档标题中包含候选查询序列的文档数量;再如,对于视频类应用,N(w)可以具体为视频名称中包含候选查询序列的视频数量。
本领域技术人员应能理解,由于公式4中分子和分母的底数均为a,公式4也可以被化简为公式4’:
f3(w)=logM(N(w)+1)   公式4’
优选地,网络设备可先获得一批查询序列;接着,网络设备确定特定应用中分别与每一个查询序列相关的搜索结果的数量,例如,一应用中与“韩寒”相关的搜索结果的数量为20000,与“郭敬明”相关的搜索结果的数量为18000,与“蒋方舟”相关的搜索结果的数量为16000,诸如此类;随后,网络设备确定前述多个数量的平均值,并将该平均值确定为M,例如, M = 20000 + 18000 + 16000 3 = 18000 .
综上所述,网络设备可通过上述各公式来确定候选查询序列的相应相关度。并且,在不同应用场景下,上述各种相关度的确定步骤并非均是必须的,这取决于网络设备采用其中哪几项相关度来确定候选查询序列与基准查询序列的综合相关度。例如,如果综合相关度仅基于候选查询序列对应于特定应用的需求相关度来确定,则网络设备仅需根据上述公式4来确定该需求相关度,而无需再确定候选查询序列与基准查询序列的共现相关度以及候选查询序列与基准查询序列的相似相关度。
优选地,如果候选查询序列的长度不符合预定条件,如过长或过短时,网络设备还可以减小该候选查询序列与基准查询序列的综合相关度。
在此,候选查询序列的长度不符合预定条件包括但不限于以下2种情形:
1)候选查询序列的长度小于第一预定阈值。
如果候选查询序列的长度小于第一预定阈值,网络设备可以减小该候选查询序列与基准查询序列的综合相关度。例如,如果候选查询序列的长度小于4,网络设备可以将该候选查询序列与基准查询序列的综合相关度减半。
一般而言,对于同一个基准查询序列,长度相对小的候选查询序列与该基准查询序列的综合相关度一般大于长度相对大的候选查询序列与该基准查询序列的综合相关度,因此,网络设备减小长度过小的候选查询序列与基准查询序列的综合相关度,可以使得各种长度的候选查询序列与该基准查询序列的综合相关度更均衡,从而使得后续步骤中可以为用户提供更多种长度的候选查询序列。
2)候选查询序列的长度大于第二预定阈值。
如果候选查询序列的长度大于第二预定阈值,网络设备可以减小该候选查询序列与基准查询序列的综合相关度。例如,如果候选查询序列的长度大于30,网络设备可以将该候选查询序列与基准查询序列的综合相关度降低为原数值的三分之一。
在此,在后续步骤中,用户设备为用户呈现候选查询序列时,长度过长的候选查询序列会影响页面呈现的效果,并且也会显著减少搜索结果的数量,因此,网络设备减小长度过大的候选查询序列与基准查询序列的综合相关度,可以保证后续步骤中为用户呈现时的页面布局不受影响,同时搜索结果的数量也得到保障。
优选地,网络设备还可以基于候选查询序列的各种相关度及其相应权重,确定该候选查询序列与基准查询序列的综合相关度。
具体地,网络设备可以基于以下公式5来确定候选查询序列与基准查询序列的综合相关度:
f(w,s)=P×f1(w,s)+Q×f2(w,s)+R×f3(w)   公式5
其中,w表示候选查询序列,f1(w,s)表示候选查询序列与基准查询序列的共现相关度,P为共现相关度的权重,f2(w,s)表示候选查询序列与基准查询序列的相似相关度,Q为相似相关度的权重,f3(w)表示候选查询序列对应于特定应用的需求相关度,R为需求相关度的权重,f(w)表示候选查询序列与基准查询序列的综合相关度。
在此,各相关度的权重可以用于表示相应相关度的重要程度。一种相关度所对应的权重越大,该相关度的重要程度越高。一般来说,P、Q、R可不完全相同,从而候选查询序列的各种相关度可以按照各自权重的大小被调整。但是,P、Q、R三者之和应被归一化,如为1或100。因此,即使当P=Q=R时,候选查询序列与基准查询序列的综合相关度也会被调整。具体地,当P、Q、R三者之和为1时,综合相关度较小;当P、Q、R三者之和为100时,综合相关度较大。
例如,假设网络设备可以基于以下公式5’来确定候选查询序列与基准查询序列的综合相关度:
f ( w , s ) = 1 3 × f 1 ( w , s ) + 1 3 × f 2 ( w , s ) + 1 3 × f 3 ( w )    公式5’
更优选地,上述根据候选查询序列的长度调整候选查询序列与基准查询序列的综合相关度的实施例可以进一步与上述根据候选查询序列的各种相关度加权确定候选查询序列与基准查询序列的综合相关度的实施例相结合。例如,网络设备首先加权确定候选查询序列与基准查询序列的综合相关度,再根据候选查询序列的长度调整该综合相关度。
在前述内容中,本说明书描述了“线下”确定候选查询序列的综合相关度的方案,即预先确定每个候选查询序列与其对应的每个基准查询序列的综合相关度,其可被后续应用于用户的实时搜索过程,如根据候选查询序列的综合相关度对其排序并提供给用户。
虽然,前述内容中描述了“线下”确定候选查询序列的综合相关度,但是前述的确定方式同样可适用于“线上”确定候选查询序列的综合相关度,两者的区别主要在于“线下确定”通常需要确定每个候选查询序列分别对应每个基准查询序列的综合相关度,“线上确定”仅需要确定对应于一个基准查询序列的每个候选查询序列的综合相关度,从而线上实时计算的计算能力和效率也能得到保障。
接下来,本说明书将描述基于综合相关度确定候选查询序列的方案。
具体地,在步骤S201中,网络设备将用户输入的查询序列作为基准查询序列;在步骤S202中,网络设备按照该基准查询序列所对应的各候选查询序列的综合相关度,确定该(等)候选查询序列的排序;在步骤S203中,网络设备按照所确定的排序,将该(等)候选查询序列提供给该用户。
在步骤S201中,网络设备将用户输入的查询序列作为基准查询序列。
在此,网络设备接收用户设备所发送的用户输入的查询序列,并且,网络设备将该查询序列作为基准查询序列。
在步骤S202中,网络设备按照与该基准查询序列的综合相关度,确定一个或多个候选查询序列的排序。
在此,网络设备按照基准查询序列所对应的一个或多个候选查询序列的综合相关度,从大到小地对候选查询序列排序。
其中,网络设备确定候选查询序列的综合相关度的方式包括但不限于以下2种:
1)网络设备查询预先确定的候选查询序列与基准查询序列的综合相关度。
具体地,网络设备可先基于前述“线下”确定候选查询序列与基准查询序列的综合相关度的方案确定每个候选查询序列与每个基准查询序列的综合相关度。每个候选查询序列与每个基准查询序列的综合相关度如上表4所示。
据此,网络设备可通过查询线下已预先确定的各候选查询序列与该基准查询序列的综合相关度,来确定各候选查询序列的综合相关度。
2)网络设备通过“线上”实时来确定候选查询序列与基准查询序列的综合相关度。
具体地,网络设备先获得基准查询序列所对应的一个或多个候选查询序列;接着,网络设备基于该(等)候选查询序列的各种相关度,确定该(等)候选查询序列与该基准查询序列的综合相关度。
例如,网络设备可基于上述公式1来确定候选查询序列与基准查询序列的综合相关度。或者,网络设备也可基于上述公式5来确定候选查询序列与基准查询序列的综合相关度。
在步骤S203中,网络设备按照所确定的排序,将该(等)候选查询序列提供给该用户。
在此,网络设备可以将在步骤S202中所获得的全部候选查询序列按照所确定的排序提供给用户。或者,网络设备也可以仅向用户提供其中的一部分候选查询序列,如排序最高的10个候选查询序列。
图2示出根据本发明另一个实施例的装置示意图,示出一种确定特定应用中候选查询序列的综合相关度的装置,也即确定装置10。如图2所示,确定装置10装置于网络设备中,并具体包括装置11和装置12。
具体地,装置11从一特定应用的会话数据中获得基准查询序列以及与基准查询序列相对应的一个或多个候选查询序列(为便于区分,以下将装置11称为查询获取装置11);随后,装置12基于该(等)候选查询序列的各种相关度,确定该(等)候选查询序列与基准查询序列的综合相关度(为便于区分,以下将装置12称为综合确定装置12),其中,各种相关度包括以下至少任一项:1)候选查询序列与基准查询序列的共现相关度;2)候选查询序列与基准查询序列的相似相关度;3)候选查询序列对应于特定应用的需求相关度。
具体地,查询获取装置11从一特定应用的会话数据中获得基准查询序列以及与基准查询序列相对应的一个或多个候选查询序列。
在此,特定应用意指本发明中所针对来进行数据采集和处理的具体应用,其包括但不限于基于文档、音乐、视频、旅行、餐饮等各垂直领域的应用。具体地,各特定应用并非仅体现为app形式,其也可以为web形式。
在此,本领域技术人员应能理解,“应用”是从功能角度进行描述的,只要其为实现一个或多个特定目的而进行相应的功能设计,如文库应用。文库应用可以理解为实现文档浏览、搜索、共享等目的的功能体,从而其既可以表现为如一手机app,也可以表现为如一特定网站。本文中,多以文库应用进行举例说明。
会话数据意指,用户设备与网络设备在一次或多次会话中彼此交互所产生的数据记录。在搜索场景下,会话数据中通常包含一个或多个查询序列、访问时间、用户设备标识信息等多种信息。
其中,用户设备包括但不限于任何一种可与用户通过键盘、虚拟键盘、触摸板、触摸屏以及声控设备等输入设备进行人机交互的电子产品,例如PC、笔记本电脑、手机、智能手机、PDA、平板电脑等。
查询序列意指用于搜索的字符串,其具体包括但不限于关键词、语句以及其他字符等。
查询获取装置11可以获得一段时间内与大量用户进行交互的多个会话的会话数据,如最近两个月的文库应用中的会话数据。接着,查询获取装置11过滤会话数据中的非查询序列,以获得每个会话中的查询序列。具体地,查询获取装置11可以过滤会话数据中的访问时间、用户设备标识信息等冗余信息以获得每个会话中的一个或多个查询序列,进而将其中任意一个查询序列确定为基准查询序列,并查找其他包含该基准查询序列的会话,以将这些其他会话中的查询序列确定为与该基准查询序列相对应的候选查询序列。
例如,每个会话及其对应的查询序列如上表1所示。查询获取装置11可将上表1中的任一个查询序列作为基准查询序列,如韩寒、郭敬明,这两个基准查询序列及其分别对应的候选查询序列如上表2所示。本领域技术人员应能理解,上表2所示出的基准查询序列以及相应的候选查询序列仅为举例性的,而并非穷举的。
优选地,查询获取装置11还可以去除查询序列中的空格、“的”、“(”、“)”、“+”等无意义或意义很小的字符。这些字符对语义没有影响,并且查询获取装置11所预先设定的查询规则一般也会过滤掉这些字符,因此这些字符对搜索结果也没有影响。
随后,综合确定装置12基于候选查询序列的各种相关度,确定候选查询序列与基准查询序列的综合相关度。
其中,候选查询序列的各种相关度包括但不限于以下至少任一项:
1)候选查询序列与基准查询序列的共现相关度。
在此,共现相关度用于从共同出现的角度来表征候选查询序列与基准查询序列的相关程度。
2)候选查询序列与基准查询序列的相似相关度。
在此,相似相关度用于从字符相似的角度来表征候选查询序列与基准查询序列的相关程度。
3)候选查询序列对应于特定应用的需求相关度。
在此,需求相关度用于表征候选查询序列在特定应用中的需求程度。
在此,候选查询序列与基准查询序列的综合相关度意指基于上述各种相关度中的任一项或至少两项之结合来最终确定的候选查询序列与基准查询序列之间的相关度。
在此,候选查询序列的各种相关度可以通过多种方式确定。例如,综合确定装置12可以通过查询预先保存的相关度参照表来确定候选查询序列的各种相关度。
其中,相关度参照表如以上表3所示。候选查询序列与基准查询序列的综合相关度也可以通过多种方式确定。例如,综合确定装置12可以基于以上公式1来确定候选查询序列与基准查询序列的综合相关度。
综合确定装置12基于以上公式1确定的候选查询序列与基准查询序列的综合相关度如以上表4所示。本领域技术人员应能理解,以上公式1所示出的确定方式仅为举例,而不应被视为对本发明的任何限制,任何现有其它确定方式或今后可能出现的确定方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
例如,综合确定装置12也可以仅基于任意一种候选查询序列的相关度来确定候选查询序列与基准查询序列的综合相关度,或者,综合确定装置12也可以基于任意两种候选查询序列的相关度来确定候选查询序列与基准查询序列的综合相关度。
除上述查询相关度参照表来确定候选查询序列的相关度的方式以外,综合确定装置12或确定装置10中的其它特定装置还可以通过其他方式确定候选查询序列的各种相关度,以用于确定综合相关度,以下将进一步具体描述。
候选查询序列与基准查询序列的共现相关度
在此,共现相关度可以基于当前候选查询序列与基准查询序列的共现频率以及各候选查询序列与该基准查询序列的共现频率中的最大值来确定。
具体地,综合确定装置12或确定装置10中的其它特定装置(共现确定装置,图2中未示出),共现确定装置可以基于以上公式2或公式2’来确定候选查询序列与基准查询序列的共现相关度。
候选查询序列与基准查询序列的相似相关度
在此,相似相关度基于候选查询序列的长度、基准查询序列的长度以及该候选查询序列与该基准查询序列中相同字符串的长度来确定。
具体地,综合确定装置12或确定装置10中的其它特定装置(相似确定装置,图2中未示出),相似确定装置可以基于以上公式3来确定候选查询序列与基准查询序列的相似相关度。
候选查询序列对应于特定应用的需求相关度
在此,需求相关度基于特定应用中与候选查询序列相关的搜索结果的数量来确定。
例如,对于文档类应用,搜索结果为候选查询序列所对应的文档,且文档可被广义理解为包括网页。对于视频类应用,搜索结果为候选查询序列所对应的视频,或者,搜索结果也可以为包含视频的网页。
具体地,综合确定装置12或确定装置10中的其它特定装置(需求确定装置,图2中未示出),需求确定装置可以基于以上公式4或公式4’来确定候选查询序列对应于特定应用的需求相关度。
综上所述,共现确定装置、相似确定装置、需求确定装置可分别通过上述对应描述的方式来确定候选查询序列的共现相关度、相似相关度及需求相关度。并且,在不同应用场景下,前述各种相关度无需均被确定,这取决于如综合确定装置12采用其中哪几项相关度来确定候选查询序列与基准查询序列的综合相关度。例如,如果综合相关度仅基于候选查询序列对应于特定应用的需求相关度来确定,则综合确定装置12仅需由上述公式4所确定的需求相关度来确定综合相关度,此时,候选查询序列与基准查询序列的共现相关度以及候选查询序列与基准查询序列的相似相关度无需被计算。
优选地,共现确定装置、相似确定装置、需求确定装置可以集成在一起,并且,这些装置也可以单独地或共同地与综合确定装置12集成在一起。
优选地,如果候选查询序列的长度不符合预定条件,如过长或过短时,综合确定装置12还可以减小该候选查询序列与基准查询序列的综合相关度。
在此,候选查询序列的长度不符合预定条件包括但不限于以下2种情形:
1)候选查询序列的长度小于第一预定阈值。
如果候选查询序列的长度小于第一预定阈值,综合确定装置12可以减小该候选查询序列与基准查询序列的综合相关度。例如,如果候选查询序列的长度小于4,综合确定装置12可以将该候选查询序列与基准查询序列的综合相关度减半。
一般而言,对于同一个基准查询序列,长度相对小的候选查询序列与该基准查询序列的综合相关度一般大于长度相对大的候选查询序列与该基准查询序列的综合相关度,因此,综合确定装置12减小长度过小的候选查询序列与基准查询序列的综合相关度,可以使得各种长度的候选查询序列与该基准查询序列的综合相关度更均衡,从而使得网络设备在执行后续操作时可以为用户提供更多种长度的候选查询序列。
2)候选查询序列的长度大于第二预定阈值。
如果候选查询序列的长度大于第二预定阈值,综合确定装置12可以减小该候选查询序列与基准查询序列的综合相关度。例如,如果候选查询序列的长度大于30,综合确定装置12可以将该候选查询序列与基准查询序列的综合相关度降低为原数值的三分之一。
在此,当用户设备为用户呈现候选查询序列时,长度过长的候选查询序列会影响页面呈现的效果,并且也会显著减少搜索结果的数量,因此,综合确定装置12减小长度过大的候选查询序列与基准查询序列的综合相关度,可以保证用户设备后续为用户呈现时的页面布局不受影响,同时搜索结果的数量也得到保障。
优选地,综合确定装置12还可以基于候选查询序列的各种相关度及其各自的相应权重,确定该候选查询序列与基准查询序列的综合相关度。
具体地,综合确定装置12可以基于以上公式5来确定候选查询序列与基准查询序列的综合相关度。
更优选地,上述根据候选查询序列的长度调整候选查询序列与基准查询序列的综合相关度的实施例可以进一步与上述根据候选查询序列的各种相关度加权确定候选查询序列与基准查询序列的综合相关度的实施例相结合。例如,综合确定装置12首先加权确定候选查询序列与基准查询序列的综合相关度,再根据候选查询序列的长度调整该综合相关度。
在前述内容中,本说明书描述了“线下”确定候选查询序列的综合相关度的方案,即预先确定每个候选查询序列与其对应的每个基准查询序列的综合相关度,其可被后续应用于用户的实时搜索过程,如根据候选查询序列的综合相关度对其排序并提供给用户。
虽然,前述内容中描述了“线下”确定候选查询序列的综合相关度,但是前述的确定方式同样可适用于“线上”确定候选查询序列的综合相关度,两者的区别主要在于“线下确定”通常需要确定每个候选查询序列分别对应每个基准查询序列的综合相关度,“线上确定”仅需要确定对应于一个基准查询序列的每个候选查询序列的综合相关度,从而线上实时计算的计算能力和效率也能得到保障。
接下来,本说明书将描述基于综合相关度确定候选查询序列的方案。
具体地,确定装置10还包括基准确定装置、排序确定装置、序列提供装置(均未在图2中示出)。
基准确定装置将用户输入的查询序列作为基准查询序列;接着,排序确定装置按照该基准查询序列所对应的各候选查询序列的综合相关度,确定该(等)候选查询序列的排序;随后,序列提供装置按照所确定的排序,将该(等)候选查询序列提供给该用户。
具体地,基准确定装置将用户输入的查询序列作为基准查询序列。
在此,网络设备接收用户设备所发送的用户输入的查询序列,并且,基准确定装置将该查询序列作为基准查询序列。
接着,排序确定装置按照与该基准查询序列的综合相关度,确定一个或多个候选查询序列的排序。
在此,排序确定装置按照基准查询序列所对应的一个或多个候选查询序列的综合相关度,从大到小地对候选查询序列排序。
其中,排序确定装置确定候选查询序列的综合相关度的方式包括但不限于以下2种:
1)排序确定装置查询预先确定的候选查询序列与基准查询序列的综合相关度。
具体地,排序确定装置可先基于前述“线下”确定候选查询序列与基准查询序列的综合相关度的方案确定每个候选查询序列与每个基准查询序列的综合相关度。每个候选查询序列与每个基准查询序列的综合相关度如上表4所示。
据此,排序确定装置可通过查询线下已预先确定的各候选查询序列与该基准查询序列的综合相关度,来确定各候选查询序列的综合相关度。
2)排序确定装置通过“线上”实时来确定候选查询序列与基准查询序列的综合相关度。
具体地,排序确定装置先获得基准查询序列所对应的一个或多个候选查询序列;接着,排序确定装置基于该(等)候选查询序列的各种相关度,确定该(等)候选查询序列与该基准查询序列的综合相关度。
例如,排序确定装置可基于上述公式1来确定候选查询序列与基准查询序列的综合相关度。或者,排序确定装置也可基于上述公式5来确定候选查询序列与基准查询序列的综合相关度。
随后,序列提供装置按照所确定的排序,将该(等)候选查询序列提供给该用户。
在此,序列提供装置可以将排序确定装置所获得的全部候选查询序列按照所确定的排序提供给用户。或者,序列提供装置也可以仅向用户提供其中的一部分候选查询序列,如排序最高的10个候选查询序列。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (14)

1.一种确定特定应用中候选查询序列的综合相关度的方法,其中,该方法包括:
-从一特定应用的会话数据中获得基准查询序列以及与所述基准查询序列相对应的一个或多个候选查询序列;
-基于所述候选查询序列的各种相关度,确定所述候选查询序列与所述基准查询序列的综合相关度;
其中,所述相关度包括以下至少任一项:
-所述候选查询序列与所述基准查询序列的共现相关度;
-所述候选查询序列与所述基准查询序列的相似相关度;
-所述候选查询序列对应于所述特定应用的需求相关度。
2.根据权利要求1所述的方法,其中,所述共现相关度基于所述候选查询序列与所述基准查询序列的共现频率以及各候选查询序列与所述基准查询序列的共现频率中的最大值来确定。
3.根据权利要求1或2所述的方法,其中,所述相似相关度基于所述候选查询序列的长度、所述基准查询序列的长度以及所述候选查询序列与所述基准查询序列中相同字符串的长度来确定。
4.根据权利要求1至3中任一项所述的方法,其中,所述需求相关度基于所述特定应用中与所述候选查询序列相关的搜索结果的数量来确定。
5.根据权利要求1至4中任一项所述的方法,其中,所述确定所述综合相关度的步骤还包括:
-如果所述候选查询序列的长度不符合预定条件,减小所述候选查询序列与所述基准查询序列的综合相关度。
6.根据权利要求1至5中任一项所述的方法,其中,所述确定所述综合相关度的步骤包括:
-基于所述候选查询序列的各种相关度及其各自所对应的权重,确定所述候选查询序列与所述基准查询序列的综合相关度。
7.根据权利要求1至6中任一项所述的方法,其中,该方法还包括:
-将用户输入的查询序列作为所述基准查询序列;
-按照所述综合相关度,确定所述候选查询序列的排序;
-按照所述排序,将所述候选查询序列提供给所述用户。
8.一种确定特定应用中候选查询序列的综合相关度的装置,其中,该装置包括:
用于从一特定应用的会话数据中获得基准查询序列以及与所述基准查询序列相对应的一个或多个候选查询序列的装置;
用于基于所述候选查询序列的各种相关度,确定所述候选查询序列与所述基准查询序列的综合相关度的装置;
其中,所述相关度包括以下至少任一项:
-所述候选查询序列与所述基准查询序列的共现相关度;
-所述候选查询序列与所述基准查询序列的相似相关度;
-所述候选查询序列对应于所述特定应用的需求相关度。
9.根据权利要求8所述的装置,其中,所述共现相关度基于所述候选查询序列与所述基准查询序列的共现频率以及各候选查询序列与所述基准查询序列的共现频率中的最大值来确定。
10.根据权利要求8或9所述的装置,其中,所述相似相关度基于所述候选查询序列的长度、所述基准查询序列的长度以及所述候选查询序列与所述基准查询序列中相同字符串的长度来确定。
11.根据权利要求8至10中任一项所述的装置,其中,所述需求相关度基于所述特定应用中与所述候选查询序列相关的搜索结果的数量来确定。
12.根据权利要求8至11中任一项所述的装置,其中,所述确定所述综合相关度的装置还用于:
-如果所述候选查询序列的长度不符合预定条件,减小所述候选查询序列与所述基准查询序列的综合相关度。
13.根据权利要求8至12中任一项所述的装置,其中,所述确定所述综合相关度的装置用于:
-基于所述候选查询序列的各种相关度及其各自所对应的权重,确定所述候选查询序列与所述基准查询序列的综合相关度。
14.根据权利要求8至13中任一项所述的装置,其中,该装置还包括:
用于将用户输入的查询序列作为所述基准查询序列的装置;
用于按照所述综合相关度,确定所述候选查询序列的排序的装置;
用于按照所述排序,将所述候选查询序列提供给所述用户的装置。
CN201410758913.XA 2014-12-10 2014-12-10 一种确定候选查询序列的综合相关度的方法与装置 Pending CN104572836A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410758913.XA CN104572836A (zh) 2014-12-10 2014-12-10 一种确定候选查询序列的综合相关度的方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410758913.XA CN104572836A (zh) 2014-12-10 2014-12-10 一种确定候选查询序列的综合相关度的方法与装置

Publications (1)

Publication Number Publication Date
CN104572836A true CN104572836A (zh) 2015-04-29

Family

ID=53088898

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410758913.XA Pending CN104572836A (zh) 2014-12-10 2014-12-10 一种确定候选查询序列的综合相关度的方法与装置

Country Status (1)

Country Link
CN (1) CN104572836A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070203894A1 (en) * 2006-02-28 2007-08-30 Rosie Jones System and method for identifying related queries for languages with multiple writing systems
CN101556614A (zh) * 2008-04-11 2009-10-14 富士通株式会社 便捷显示关于一个或更多个输入项目的交互式动态项目云
CN101650742A (zh) * 2009-08-27 2010-02-17 中兴通讯股份有限公司 一种对英文检索的检索条件进行提示的系统及方法
CN102163234A (zh) * 2011-04-19 2011-08-24 北京百度网讯科技有限公司 一种基于纠错相关度对查询序列进行纠错的设备和方法
CN102609433A (zh) * 2011-12-16 2012-07-25 北京大学 基于用户日志进行查询推荐的方法及系统
CN104143005A (zh) * 2014-08-04 2014-11-12 五八同城信息技术有限公司 一种相关搜索系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070203894A1 (en) * 2006-02-28 2007-08-30 Rosie Jones System and method for identifying related queries for languages with multiple writing systems
CN101556614A (zh) * 2008-04-11 2009-10-14 富士通株式会社 便捷显示关于一个或更多个输入项目的交互式动态项目云
CN101650742A (zh) * 2009-08-27 2010-02-17 中兴通讯股份有限公司 一种对英文检索的检索条件进行提示的系统及方法
CN102163234A (zh) * 2011-04-19 2011-08-24 北京百度网讯科技有限公司 一种基于纠错相关度对查询序列进行纠错的设备和方法
CN102609433A (zh) * 2011-12-16 2012-07-25 北京大学 基于用户日志进行查询推荐的方法及系统
CN104143005A (zh) * 2014-08-04 2014-11-12 五八同城信息技术有限公司 一种相关搜索系统及方法

Similar Documents

Publication Publication Date Title
CN107491518A (zh) 一种搜索召回方法和装置、服务器、存储介质
CN107609152B (zh) 用于扩展查询式的方法和装置
US7962477B2 (en) Blending mobile search results
US20100082593A1 (en) System and method for ranking search results using social information
CN103699619A (zh) 一种用于提供搜索结果的方法及装置
US8359326B1 (en) Contextual n-gram analysis
CN104978368A (zh) 一种用于提供推荐信息的方法和装置
CN103870505A (zh) 一种查询词推荐方法和查询词推荐系统
US10565253B2 (en) Model generation method, word weighting method, device, apparatus, and computer storage medium
CN105005564A (zh) 一种基于问答平台的数据处理方法和装置
US8612409B2 (en) Method and apparatus for detecting and explaining bursty stream events in targeted groups
CN103902597A (zh) 确定目标关键词所对应的搜索相关性类别的方法和设备
CN103136213B (zh) 一种提供相关词的方法及装置
CN104077415A (zh) 搜索方法及装置
CN101963965A (zh) 基于搜索引擎的文档索引方法、数据查询方法及服务器
US11249993B2 (en) Answer facts from structured content
CN102004772A (zh) 一种用于根据检索词进行搜索结果排序的方法及设备
CN103713894A (zh) 一种用于确定用户的访问需求信息的方法与设备
CN103678325A (zh) 一种用于提供与初始页面相对应的浏览页面的方法和设备
CN104361092A (zh) 搜索方法及装置
CN104809223A (zh) 一种用于在应用内提供应用内容搜索结果的方法与设备
CN103745380A (zh) 一种广告投放方法和装置
CN104615723A (zh) 查询词权重值的确定方法和装置
CN107153697A (zh) 一种商品交易网站中的商品搜索方法和装置
CN105045890A (zh) 确定目标新闻源中的热点新闻的方法与设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150429