CN105659225A - 使用路径受约束的随机游走的查询扩展和查询-文档匹配 - Google Patents

使用路径受约束的随机游走的查询扩展和查询-文档匹配 Download PDF

Info

Publication number
CN105659225A
CN105659225A CN201480042201.6A CN201480042201A CN105659225A CN 105659225 A CN105659225 A CN 105659225A CN 201480042201 A CN201480042201 A CN 201480042201A CN 105659225 A CN105659225 A CN 105659225A
Authority
CN
China
Prior art keywords
node
path
inquiry
document
constrained random
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480042201.6A
Other languages
English (en)
Other versions
CN105659225B (zh
Inventor
J·高
G·徐
J·徐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN105659225A publication Critical patent/CN105659225A/zh
Application granted granted Critical
Publication of CN105659225B publication Critical patent/CN105659225B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

在本文中所描述的各种技术涉及使用路径受约束的随机游走来进行查询扩展和/或查询文档匹配。来自搜索日志的点进数据被表示为带标记并且有向的图。基于输入查询在图上执行路径受约束的随机游走。所述图包括:第一节点集合,其表示包括在来自搜索日志的点进数据中的查询;第二节点集合,其表示包括在来自搜索日志的点进数据中的文档;第三节点集合,其表示来自查询和文档的单词;以及在节点之间的边,所述边表示在查询、文档和单词之间的关系。路径受约束的随机游走包括在所述图的节点之间的边上进行的遍历。此外,至少部分地基于路径受约束的随机游走,计算在目标节点和表示输入查询的源节点之间的关系的得分。

Description

使用路径受约束的随机游走的查询扩展和查询-文档匹配
背景技术
项错配(termmismatch)可能成为在执行搜索时的挑战。例如,一项查询(query)与其相关文档往往是使用不同词汇和语言风格来构成的,这会导致项错配。搜索引擎所利用的将文档匹配到查询的常规算法可能由于项错配而受到不利影响,并且因此,常常采用查询扩展(QE)来解决这样的挑战。查询扩展(queryexpansion)能够利用另外的相关项(称作“扩展项”)来对由用户发起的查询进行扩展,以使得能够检索到更相关的文档。
已经实现了各种常规QE技术以用于信息检索(IR)。一些基于自动相关反馈(例如,显式反馈和伪相关反馈(PRF))的传统QE技术能够增强IR的表现。然而,这样的技术可能无法直接应用于商业网络搜索引擎,因为相关的文档可能是不可用的。此外,伪相关文档的生成可以采用多相位检索,这要实时执行可能是昂贵并且耗时的。
最近发展的QE技术利用搜索日志(例如,点进(click-through)数据)。这些技术称为基于日志的QE,也能够从(伪)相关文档的集合中得出扩展项用于查询。然而,与基于自动相关反馈的技术不同,可以用基于日志的QE技术根据记录在搜索日志中的用户点击(click)来识别相关的集合。例如,通过将先前已针对输入查询点击过的文档包括进来,能够形成该查询的(伪)相关文档的集合。许多常规的基于日志的QE技术使用根据搜索日志预先计算出的全局模型。该模型能够捕获在查询项和文档项之间的相互关系,并且能够被用来即时(onthefly)为输入查询生成扩展项。
尽管基于日志的QE技术的有效性,这样的方法仍可能苦于各种问题。例如,数据稀疏性能够对基于日志的QE技术的有效性造成影响。如齐普夫定律(Zipf'slaw)所陈述的,大部分的查询在搜索日志中可能几乎没有或完全没有点击。此外,搜索意图的模糊性能够对基于日志的QE技术造成不利影响。例如,项相互关系模型(termcorrelationmodel)可能无法将查询项“book”在“schoolbook(学校用书)”中与在“hotelbooking(酒店预订)”中的搜索意图相区分。虽然通过使用基于词组(phrase)和概念的相互关系模型可以部分地缓解该问题,但可能存在这样的场景:其中在不使用全局上下文的情况下不能够正确地识别搜索意图。例如,查询“为什么六瓶一包”可能是关于包装的,而“极品烘焙面包”的查询意图可能关心的是在加利福尼亚寻找一家面包店。在这样的情况下,该输入查询的(伪)相关文档的集合,如果可得的话,可能是比全局相互关系模型更可能保留原始搜索意图的。
发明内容
本文所描述的是,关于使用路径受约束的随机游走来进行查询扩展和/或查询文档匹配的各种科技。来自搜索日志的点进数据可以表示为计算机实现的、带标记(labeled)并且有向(directed)的图。可以在计算机实现的、带标记并且有向的图上执行“路径受约束的随机游走(PCRW)”,用于查询扩展和/或文档-查询匹配。可以基于输入查询在带标记并且有向的图上执行路径受约束的随机游走。带标记并且有向的图可以包括第一节点集合,所述第一节点集合表示包括在来自搜索日志的点进数据中的查询。此外,带标记并且有向的图可以包括第二节点集合,所述第二节点集合表示包括在来自搜索日志的点进数据中的文档。带标记并且有向的图还可以包括第三节点集合,所述第三节点集合表示来自查询和文档的单词。带标记并且有向的图还可以包括在节点之间的边,所述边表示在查询、文档和单词之间的关系。路径受约束的随机游走可以包括经由所述图的的边在节点之间进行的遍历。此外,在目标节点与表示所述输入查询的源节点之间的关系的得分(score),可以至少部分地基于路径受约束的随机游走来计算。
根据各个实施例,能够实现基于路径受约束的随机游走的查询扩展技术。因而,路径受约束的随机游走的目标节点能够代表备选查询扩展项(例如,表示来自查询和文档的单词的第三节点集合能够包括所述目标节点)。因此,可以计算在表示备选查询扩展项的目标节点与表示输入查询的源节点之间的关系的得分。这样的得分可以被计算为在带标记并且有向的图上、在表示备选查询扩展项的目标节点与表示输入查询的源节点之间的路径受约束的随机游走的学习组合(learnedcombination)。所述关系的得分可以是对于输入查询挑选所述备选查询扩展项的概率。
根据其它实施例,能够实现基于在带标记并且有向的图上的路径受约束的随机游走的查询-文档匹配技术。因此,路径受约束的随机游走的目标节点可以代表备选文档(例如,表示包括在来自搜索日志的点进数据中的文档的第二节点集合能够包括所述目标节点)。因此,可以计算在表示备选文档的目标节点与表示输入查询的源节点之间的关系的得分。该得分可以被计算为在带标记并且有向的图上、在表示备选文档的目标节点与表示输入查询的源节点之间的路径受约束的随机游走的学习组合。另外,该关系的得分可以是备选文档与输入查询相关的概率。
依照各种实施例,在目标节点与表示输入查询的源节点之间的关系的得分,可以通过确定在目标节点与表示输入查询的源节点之间的路径受约束的随机游走的各个值来计算。例如,路径受约束的随机游走能够根据不同的路径类型从表示输入查询的源节点到目标节点对所述图的节点之间的边进行遍历。路径类型可以包括作为对应的路径受约束的随机游走的一部分来进行遍历的、在图中的节点之间的关系的序列。因此,路径类型可以是,在对应的路径受约束的随机游走的执行期间可以遵循的、包括在带标记并且有向的图中的边的边标记(edgelabel)的序列。此外,可以将根据不同的路径类型从表示输入查询的源节点到目标节点对所述图的节点之间的边进行遍历的路径受约束的随机游走的各个值进行组合,以计算在目标节点与表示输入查询的源节点之间的关系的得分。
上文的发明内容提出了简化概述,以便提供对本文所讨论的系统和/或方法的一些方面的基本理解。该发明内容并不是对本文所讨论的系统和/或方法的详尽概览。它不是要标识关键/重要元素,也不是要描绘这样的系统和/或方法的范围。其唯一的目的是以简化形式提出一些概念,作为稍后提出的更详细的说明书的铺垫。
附图说明
图1示出执行路径受约束的随机游走的示例性系统的功能方框图。
图2示出将路径受约束的随机游走作为搜索的一部分来执行的示例性系统的功能方框图。
图3示出示例性带标记并且有向的图。
图4示出基于来自搜索日志的点进数据来构造带标记并且有向的图的示例性系统的功能方框图。
图5-8示出在表示输入查询Q的源节点与表示备选查询扩展项w1的目标节点之间的各种示例性路径受约束的随机游走。
图9是示出使用路径受约束的随机游走的示例性方法的流程图。
图10是示出使用路径受约束的随机游走来执行查询扩展或查询-文档匹配的示例性方法的流程图
图11示出示例性计算设备。
具体实施方式
现在参考附图来描述关于使用路径受约束的随机游走来进行查询扩展和/或查询-文档匹配的各种科技,其中同样的附图标记在通篇中被用来指代同样的元素。在下文的说明书中,出于解释目的阐述了很多具体细节,以便于提供对一个或多个方面的透彻理解。然而,可以显而易见的是,这样的(一个或多个)方面可以在没有这些特定细节的情况下实践。在其它实例中,用方框图的形式示出公知的结构和设备,以便于描述一个或多个方面。此外,应当理解,被描述为由特定系统部件来实现的功能可以通过多个部件来执行。同样地,例如,一个部件可以被配置为执行被描述为由多个部件来实现的功能。
此外,术语“或”旨在意指包容性的“或”而不是排他性的“或”。也就是说,除非另有指定或从上下文中能明白的,否则短语“X采用A或B”旨在意指任何自然的包容性的排列。也就是说,下列实例中的任何实例均满足短语“X采用A或B”:X采用A;X采用B;或X采用A和B二者。另外,在本申请及所附权利要求中使用的冠词“一个”和“一”一般应该被理解为意指“一个或多个”,除非另有指定或从上下文能明白是要指向单数形式。
如在本文中所阐述的,可以实现基于路径受约束的随机游走的查询扩展和/或查询-文档匹配。来自搜索日志的点进数据可被表示成带标记并且有向的图。针对查询扩展,对于输入查询挑选备选查询扩展项的概率是通过在图上的路径受约束的随机游走的学习组合来计算的。此外,针对查询文档匹配,备选文档与输入查询相关的概率可以通过在图上的路径受约束的随机游走的学习组合来计算。
本文中提供了原则性的框架,其以统一方式将不同的模型纳入。例如,针对查询扩展:框架可以是通用的,这是通过将各种QE模型作为特殊案例涵盖;框架也可以是灵活的,这是通过使得多种信息能够用统一的方式组合。此外,框架支持纳入另外的QE模型(例如,使得(一个或多个)QE模型能够随后被添加或移除)。此外,本文中提供的基于路径受约束的随机游走的技术可以有效地扩展罕见查询(例如,未在搜索日志中见到的低频查询),并且提供与常规QE技术相比增强的表现。
现在参见附图,图1示出了执行路径受约束的随机游走的系统100。例如,系统100能够基于路径受约束的随机游走实现查询扩展。根据另一示例,系统100能够基于路径受约束的随机游走实现查询-文档匹配。
系统100包括数据仓库102,其留存(retain)带标记并且有向的图104。搜索日志(其可以包括已点击的查询-文档对)可以表示为带标记并且有向的图104,该图包括三类节点,分别表示查询、文档和单词(例如,备选扩展项)。因此,带标记并且有向的图104包括:第一节点集合,其表示包括在来自搜索日志的点进数据中的查询;第二节点集合,其表示包括在来自搜索日志的点进数据中的文档;以及第三节点集合,其表示来自查询和文档的单词。此外,带标记并且有向的图104包括在节点之间的边,所述边表示在查询、文档和单词之间的关系。包括在带标记并且有向的图104中的节点之间的边,是通过各自的关系来标记的。在带标记并且有向的图104中的边还可以被分配以各自的边得分(edgescore),这是基于针对各自的关系的关系特定的(relation-specific)概率模型的。
系统100还包括随机游走部件106,其能够接收输入查询108。随机游走部件106能够基于输入查询108在带标记并且有向的图104上执行路径受约束的随机游走。由随机游走部件106执行的路径受约束的随机游走可以包括在图104的节点之间的边上进行遍历。路径受约束的随机游走根据预先定义的路径类型110对图104的节点之间的边进行遍历。预先定义的路径类型110中的每一个都可以包括各自的作为由随机游走部件106执行的对应的路径受约束的随机游走的一部分而进行遍历的、在图104中的节点之间的关系的序列。
由随机游走部件106执行的路径受约束的随机游走,在带标记并且有向的图104上实例化了各个不同的路径类型110。由随机游走部件106执行的路径受约束的随机游走可以在表示输入查询108的源节点处开始。此外,路径受约束的随机游走可以根据不同的预先定义路径类型110来遍历图104的节点之间的边。例如,给定的路径受约束的随机游走可以根据路径类型110中的对应的一种来遍历图104的节点之间的边,不同的路径受约束的随机游走可以根据路径类型110中的不同的对应的一种来遍历图104的节点之间的边,等等。此外,路径受约束的随机游走可以在目标节点处结束。
系统100还包括关系估算部件112,其至少部分地基于路径受约束的随机游走来计算在目标节点和表示输入查询108的源节点之间的关系的得分114。例如,关系估算部件112可以确定在目标节点和表示输入查询108的源节点之间的路径受约束的随机游走的各自的值,其中路径受约束的随机游走根据不同的路径类型110从表示输入查询108的源节点到目标节点对图104的节点之间的边进行遍历。此外,关系估算部件112可以将路径受约束的随机游走的各自的值进行组合,以计算在目标节点和表示输入查询108的源节点之间的关系的得分114。根据各种实施例,可以将权重分配给不同的路径类型110。因此,根据分配给不同的路径类型110的权重,关系估算部件112可以将根据不同的路径类型110从表示输入查询108的源节点到目标节点对图104的节点之间的边进行遍历的路径受约束的随机游走的各自的值进行组合。
虽然上述讨论的大部分涉及计算在目标节点和表示输入查询108的源节点之间的关系的得分114,但应当意识到,在大体上任何数量的目标节点和表示输入查询108的源节点之间的关系的得分可以至少部分地基于各自的路径受约束的随机游走来类似地计算。此外,这样的在目标节点和源节点之间的关系的得分可以被排序(rank)。例如,基于在目标节点和表示输入查询108的源节点之间的对应关系的各自的得分,可以输出排序表(例如,目标节点的排序表)。
此外,依照各种例子,系统100能够基于由随机游走部件106执行的在带标记并且有向的图104上的路径受约束的随机游走来实现查询扩展。因此,带标记并且有向的图104中的表示来自查询和文档的单词的第三节点集合可以包括目标节点。因此,目标节点可以表示备选查询扩展项。此外,关系的得分114可以是针对输入查询108挑选该备选查询扩展项的概率。
根据其它示例,系统100可以基于由随机游走部件106执行的在带标记并且有向的图104上的路径受约束的随机游走来实现查询-文档匹配。因此,带标记并且有向的图104中的表示包括在来自搜索日志的点进数据中的文档的第二节点集合可以包括目标节点。因此,目标节点可以表示备选文档。此外,关系的得分114可以是备选文档与输入查询108相关的概率。
现在转到图2,示出的是系统200,其将路径受约束的随机游走作为搜索的一部分来执行。系统200包括:数据仓库102,其留存带标记并且有向的图104;以及搜索部件202。此外,搜索部件202可以包括随机游走部件106和关系估算部件112;然而,根据其它实施例(未示出),可以预见的是,随机游走部件106和/或关系估算部件112可以与搜索部件202分隔。
搜索部件202可以执行基本上任何类型的搜索(例如,网络搜索、桌面搜索等)。搜索部件202例如可以是搜索引擎。因此,以例示的方式,搜索部件202可以是网络搜索引擎、桌面搜索引擎、或类似物;然而,应当意识到所要求保护的主题内容不限于前面的例示。
搜索部件202可以接收输入查询108(例如,输入查询108可以被合意地输入到搜索部件202)。此外,随机游走部件106可以基于输入查询108在带标记并且有向的图104上执行路径受约束的随机游走。关系估算部件112可以至少基于路径受约束的随机游走来计算在目标节点和表示输入查询108的源节点之间的关系的得分。
此外,搜索部件202可以包括排序部件204。可以预见的是,可以针对多个目标节点基于输入查询108在带标记并且有向的图104上执行路径受约束的随机游走。关系估算部件112可以基于各个路径受约束的随机游走来计算在这些目标节点和表示输入查询108的源节点之间的关系的各自的得分。此外,排序部件204可以基于在目标节点和表示输入查询108的源节点之间的对应关系的各自的得分来输出排序表。此外,搜索部件202可以基于排序表来执行搜索。
根据一个例子,可以基于由随机游走部件106执行的在带标记并且有向的图104上的路径受约束的随机游走来实现查询扩展。遵照此例子,排序部件204可以基于在表示备选查询扩展项的目标节点和表示输入查询108的源节点之间的对应关系的各自的得分来输出备选查询扩展项的排序表。
再举例来说,可以基于由随机游走部件106执行的在带标记并且有向的图104上的路径受约束的随机游走来实现查询-文档匹配。因此,排序部件204可以基于在表示备选文档的目标节点和表示输入查询108的源节点之间的对应关系的各自的得分来输出备选文档的排序表。
再次参考其中实现了查询扩展的示例性场景。因此,目标节点可以表示备选查询扩展项。搜索部件202可以至少部分地基于在表示备选查询扩展项的目标节点和表示输入查询108的源节点之间的关系的得分(例如,基于备选查询扩展项在由排序部件204输出的排序表中的位置)来选择备选查询扩展项。根据一个例子,响应于选择备选查询扩展项,搜索部件202可以至少部分地基于备选查询扩展项来在多个文档上执行搜索。依照另一个例子,响应于选择备选查询扩展项,搜索部件202可以使得备选查询扩展项作为建议查询被显示(例如,在用户设备的显示器屏幕上显示给用户)。遵循此例子,如果选择了对应于备选查询扩展项的建议查询(例如,基于用户输入),则搜索部件202可以至少部分地基于备选查询扩展项在多个文档上执行搜索。以例示的方式,搜索部件202可以使得在由排序部件204输出的排序表中的前K个备选查询扩展项作为建议查询而被显示,其中K基本上可以是任何整数。遵循此例示,可以选择建议查询中的一个或多个(例如,基于用户输入);从而,搜索部件202可以至少部分地基于所选择的一个或多个建议查询来执行搜索。
此外,再次参考其中实现了查询-文档匹配的示例性场景。从而,目标节点可以表示备选文档。搜索组件202可以响应于在多个文档上执行搜索来返回备选文档。例如,可以由搜索部件202至少部分地基于在表示备选文档的目标节点和表示输入查询108的源节点之间的关系的得分来返回备选文档。
值得注意的是,在本文中阐述的下列例子中的许多都涉及在带标记并且有向的图104上使用路径受约束的随机游走以用于查询扩展。然而,应当意识到,这样的例子可以扩展到下述场景:其中采用在带标记并且有向的图104上的路径受约束的随机游走以用于查询文档匹配。
参见图3,示出的是示例性带标记并且有向的图300(例如,带标记并且有向的图104)。图300包括:节点302,其表示输入查询Q(例如,源节点);节点304,其表示包括在来自搜索日志的点进数据中的查询Q';节点306,其表示包括在来自搜索日志的点进数据中的文档D;以及节点308,其表示单词w(在这里统称为节点302-308)。此外,图300包括在节点302-308之间的边。
对于图300中的将输入查询Q链接到备选扩展项w(例如,节点308之一,目标节点,等等)的每条路径,存在通过边标记的序列来定义的路径类型π(例如,路径类型110之一)。每个路径类型可被视为根据Q生成w的特定过程。此外,生成概率P(w|Q,π)是通过沿着实例化路径类型π的路径的随机游走(称为路径受约束的随机游走)来计算的。
可以通过定义特定的路径类型来在路径受约束的随机游走的框架中制定各种基于日志的QE模型。路径受约束的随机游走提供了通用的并且灵活的建模框架。例如,路径受约束的随机游走可以将各种基于日志的QE模型作为特殊案例涵盖,同时允许将其它QE模型(例如,以后发展的QE模型)纳入。例如,可以定义游走行为的富集(richset),该富集支持各种各样的边标记,其中不同的信息可以被用在游走的不同阶段。
此外,由于不同的QE方法常常依赖于不同的源,并且潜在地是互补的(complimentary),可能期望将它们组合,以解决数据稀疏性并且有助于将搜索意图消除歧义。例如,虽然使用(伪)相关文档的自动反馈技术可以留存搜索意图,但却苦于数据稀疏性问题(尤其是对于罕见查询);基于全局项相互关系模型的技术可适用于常见查询和罕见查询二者,但是,由于其捕获的上下文信息有限,可能导致搜索意图的意外转变。路径受约束的随机游走提供灵活的数学框架,其中不同的QE特征(由路径类型π指定)可以以统一的方式纳入。在形式上,在本文中阐述的基于路径受约束的随机游走的QE方法中,针对给定的Q挑选w的概率P(w|Q),可以通过图300上的路径受约束的随机游走的学习组合(例如,P(w|Q)=Σπ∈BλπP(w|Q,π),其中λπ是在训练数据上学习的组合权重)来计算(例如,通过关系估算部件112)。因此,对路径受约束的随机游走的使用可以增强QE的针对数据稀疏性的鲁棒性,同时有助于将搜索意图消除歧义。
考虑边带标记的有向图G=(C,T)(例如,图300),其中是带标记的边的集合(也称为三元组(triple))(c、r、c')。每个三元组表示关系r∈R的一个实例r(c,c′)。对于QE,可以针对每个关系r使用一个单独的概率模型θr。概率模型被用来将得分分配给每条边。该得分是对于边类型r以一步随机游走从c到达c'的概率,P(c′|c,θr)。
在G中的路径类型是一个序列π=〈r1,…,rm〉。路径类型的实例是节点序列c0,…,cm,以使得ri(ci-1,ci)。每个路径类型指定一个实值特征。对于给定的节点对(s,t),其中s是源节点而t是目标节点,特征π的值是P(t|s,π)(例如,通过实例化该路径类型的随机游走(也称作路径受约束的随机游走)从s到达t的概率)。特别地,假设随机游走刚刚到达ci,这是通过以Q=c0遍历被标记为r1,…,ri的边。于是ci+1是根据θri+1从通过被标记为ri+1的边可到达的节点中随机抽取的。如果P(t|s,π)>0,则路径类型π对于对(s,t)是有效的(active)。
设B={⊥,π1,…,πn}是在图300中出现的长度不大于l的路径类型连同虚设类型⊥一起的集合,该虚设类型表示偏置特征(biasfeature)。例如,对于节点s、t可以设定P(t|s,⊥)=1。对于目标节点t是否与源节点s相关的得分,可以通过下式给出:
P ( t | s ) = Σ π ∈ B λ π P ( t | s , π ) - - - ( 1 )
在前文中,其中λπ是特征π的权重。待学习的模型参数是矢量λ=〈λππ∈B。此外,对B的构造和对λ的估计可以是应用特定的(applicationspecific)。对于QE,源节点是待扩展的输入查询Q(例如,节点302),而目标节点是备选扩展项w(例如,节点308之一)。因此,方程式(1)给出了w是否为Q的适当的扩展项的概率。
参见图4,示出了基于来自搜索日志的点进数据402来构造带标记并且有向的图104的系统400。点进数据402可被留存在数据仓库404中。可以预见的是,数据仓库404可以是图1的数据仓库102;然而,所要求保护的主题内容并非限于此。点进数据402可以包括查询文档对(querydocumentpair)。
此外,系统400包括建立器部件406,其根据点进数据402来构造带标记并且有向的图104。建立器部件406还可以包括图生成部件408和边标记部件410。图生成部件408可以生成用于文档、查询和单词的节点。此外,图生成部件408可以生成将节点链接起来的边。
边标记部件410可以将标记分配给边。更具体地,边标记部件410可以在图中对每条边通过各自的关系做标记。此外,边标记部件410可以对在带标记并且有向的图104中的每条边分配各自的边得分。边标记部件410可以基于针对边的关系的关系特定的概率模型来生成给定边的边得分。
点进数据402包括查询-文档对的列表。每个对包括一个查询和一个文档,该文档具有对于该查询的一个或多个用户点击。因此,图生成部件408可以将搜索日志表示为图G=(C,T)(例如,带标记并且有向的图104、图3中的图300)。此外,图生成部件408定义了三类节点,分别表示查询、文档、以及在查询和文档中出现的单词。在搜索日志中的查询(由Q'表示)具有已点击的(一个或多个)文档。待扩展的输入查询(由Q表示),可以是新的、低频的查询,不具有已点击的文档。这样的查询可被称为罕见查询。然而,还可以预见的是,待扩展的输入查询Q',可以替代地是具有已点击的文档的、在搜索日志中的查询。Q和Q'在G中被视为不同的节点(如图3中所示)。
边标记部件410将图104中每条边通过关系r进行标记。此外,边标记部件410使用关系特定的模型θr对图104中的每条边进行评分。边分数是对于边类型r以一步随机游走从源节点s到达目标节点t的概率,P(t|s,θr)。下文在表1中示出关系r和它们对应的评分函数score(s→t;r)的例子。
表1
如上文所提到的,表1阐述了关系r和它们的对应的评分函数的例子。如上文所提供的,tf(q;Q)是项q在查询Q中出现的次数,而|Q|是查询Q的长度。tf(w;D)是项w在D中出现的次数,而|D|是文档D的长度。cf(w)和|C|的值是在合集(collection)层面近似地定义的,其中合集包括在搜索日志中的文档集合。Ptm(.)是由转化模型(translationmodel)分配的单词转化概率,该转化模型是在根据点进数据402得出的查询-标题对上训练的。在#2中的Ptm(q'|q)也是由相同的查询-标题转化模型分配的,基于如下假设:适当的扩展项q'很可能出现在已点击的文档的标题中。click(Q′,D)是在搜索日志中为Q'而点击文档D的次数。在#11和#12中,D是在搜索日志中的文档的全集,Q是在搜索日志中的查询的全集,而N是在搜索日志中的点击的总数(例如,N=ΣQ∈QΣD∈Dclick(Q,D))。此外,α和β是模型超参数,分别控制针对查询语言模型和文档语言模型进行的平滑。
当使用关系特定的模型θr对图104中的每条边进行评分时,边标记部件410可以通过softmax将边得分按照概率P(t|S,θr)来计算如下:
P ( t | s , θ r ) = exp ( s c o r e ( s → t ; r ) ) Σ t i exp ( s c o r e ( s → t i ; r ) ) - - - ( 2 )
值得注意的是,常规的路径受约束的随机游走模型普遍缺失θr,且因而传统上将边得分计算为:
P ( t | s , r ) = I ( r ( s , t ) ) Σ t ′ I ( r ( s , t ′ ) )
在前文中,I(r(s,t))是指示函数,如果存在一条具有类型r的边将s连接到t,则该指示函数取值1。相比之下,如本文中所阐述地引入θr,允许纳入已为QE发展的各种模型以及文档排序模型。
表1中的示例评分函数一般分为四个类别。第一类别包括用于similar.*关系的函数(例如,#1),且是基于BM25模型的。第二类别,其包括用于generate.*关系的函数(例如,#4),使用一元语言模型,所述模型具有使用狄利克雷先验的贝叶斯平滑。第三类别,包括用于click.*的函数(例如,#3),使用点击模型。第四类别,包括用于translation.*的函数(例如,#5),使用转化模型,其中,如果点进数据402可用于模型训练,则单词转化概率Ptm是在查询-文档对上估计的,这是通过假定查询平行于为该查询而点击的文档。
再次参考图3。给定图300,以输入查询的节点Q(例如,节点302)开始、并且以单词节点w(例如,节点308之一)结束的任何路径类型π,定义一个实值特征,其可被视为QE模型(或QE特征)。该特征值是通过类型π的路径受约束的随机游走来拣选w作为扩展项的概率P(w|Q,π)。表2提供了路径类型的例子,其可被用作路径受约束的随机游走模型中的特征。
表2
表2提供了三类QE特征:(1)TM特征,其使用转化模型来执行QE(例如,对应的路径类型是由表2中从TM1到TM5的ID来指定的),(2)SQ特征,其使用相似查询来执行QE(例如,SQ1到SQ6),以及(3)RD特征,其使用(伪)相关文档来执行QE(例如,RD1到RD10)。
许多基于日志的QE技术可以使用基于点进的转化模型,其中项相互关系是使用从点进数据中提取的查询-文档对来预先计算的。与基于叙词表的方法(无论是手动编译的还是从文档合集派生的)相反,使用转化模型的基于日志的方法能够明确地捕获在查询项和文档项之间的相互关系。使用转化模型的基于日志的QE技术的一个例子是通过路径类型TM1〈translate.Q2w〉来编码的。倘若没有(足够的)点进数据用于模型训练,可以采用使用马尔可夫链的技术,其中在两个单词之间的转化概率是通过在文档-单词图上的随机游走来计算的;这样的技术可以通过表2中的路径类型TM2和TM3来编码。
罕见查询常常对网络搜索提出挑战。对罕见查询Q的扩展,常常是通过添加来自与Q相似的常见查询Q'的项来执行的。路径受约束的随机游走模型通过实例化路径类型SQ1〈similar.Q2Q',.qenerate.Q'2w〉的随机游走来达成这一点。例如,可以通过在查询-文档点击图上执行随机游走来对相似的查询进行检索。因此,可以通过使用相似查询的更大的集合来增强罕见查询扩展,所述相似查询是通过沿着具有类型click.Q2D和click.D2Q的边反复地应用随机游走来识别的。在表2中的SQ3和SQ4是这样的模型的两个例子。
在搜索日志中所见的输入查询Q的相关文档D的集合,可以通过收集对于该查询有点击的文档来形成。因此,相关反馈QE方法可以如(例如)RD8来表示,
〈click.Q2D,generate.D2w)
如果输入查询是罕见查询,则伪相关文档的集合可以通过搜索日志中的相似查询Q'(例如,与输入查询相似的查询)来形成,例如,RD1
〈similar.Q2Q',click.Q'2D,generate.D2w〉
为解决数据稀疏性问题,更多的伪相关文档可以通过在查询-文档点击图上执行随机游走来检索,例如表2中的RD4和RD5。
图5至8示出了在表示输入查询Q的源节点502(例如,图3中的节点302)和表示备选查询扩展项w1的目标节点504(例如,图3中的节点308之一)之间的各种示例性的路径受约束的随机游走。图5至8描绘了图3的带标记并且有向的图300的分别的部分。图5至8中阐述的例子示出了四种不同的路径类型。然而,应当理解的是,所要求保护的主题内容并不限于所示的例子。
图5描绘了路径受约束的随机游走500,其按照表2中的路径类型TM1从源节点502到目标节点504对带标记并且有向的图中的边进行遍历。路径受约束的随机游走500是一步随机游走。更具体地,路径受约束的随机游走500沿着由关系translate.Q2w标记的边506从源节点502到目标节点504。
图6描绘了路径受约束的随机游走600,其按照表2中的路径类型SQ1从源节点502到目标节点504对带标记并且有向的图中的边进行遍历。路径受约束的随机游走600是两步随机游走。具体地,路径受约束的随机游走600在源节点502开始,沿着由关系similar.Q2Q'标记的边602从源节点502到表示相似查询Q'A的节点604(例如,图3中的节点304之一),并且然后沿着由关系generate.Q′2w标记的边606从表示相似查询Q'A的节点604到目标节点504。
图7描绘了路径受约束的随机游走700,其按照表2中的路径类型RD1从源节点502到目标节点504对带标记并且有向的图中的边进行遍历。路径受约束的随机游走700是三步随机游走。具体地,路径受约束的随机游走700在源节点502开始,沿着由关系similar.Q2Q'标记的边702从源节点502到表示相似查询Q'B的节点704(例如,图3中的节点304之一),然后沿着由关系click.Q'2D标记的边706从表示相似查询Q'B的节点704到表示文档DB的节点708(例如,图3中的节点306之一),并且然后沿着由关系generate.D2w标记的边710从表示文档DB的节点708到目标节点504。
图8描绘了路径受约束的随机游走800,其按照表2中的路径类型TM4从源节点502到目标节点504对带标记并且有向的图中的边进行遍历。路径受约束的随机游走800是三步随机游走。更具体地,路径受约束的随机游走800在源节点502开始,沿着由关系generate.Q2w标记的边802从源节点502到表示单词wc的节点804(例如,图3中的节点308之一,表示不同于备选查询扩展项w1的单词),然后沿着由关系generate.w2Q′标记的边806从表示单词wc的节点804到表示相似查询Q'C的节点808(例如,图3中的节点304之一),并且然后沿着由关系generate.Q'2w标记的边810从表示相似查询Q'C的节点808到目标节点504。
再次参考图1。随机游走部件106可以将随机游走作为矩阵乘法来实施。作为示例,检索相似查询的任务可以通过由随机游走部件106沿着click.Q2D和click.D2Q重复地应用随机游走来执行。设N为在G(例如,带标记并且有向的图104)中的查询节点的数量,并且设M为文档节点的数量。设A为具有条目AQ,D=P(D|Q)的N×M矩阵,称为查询-文档转化矩阵,其中该概率是根据如在表1的#3中那样的点击计算的。另外,设B是具有条目BD,Q=P(Q|D)的M×N矩阵,其中该概率是根据如在表1的#4中那样的点击计算的。A和B称为过渡矩阵。因此,使用C=AB,可以计算在2k步以内从初始查询Q0游走到任一其它查询Q的概率。此外,对应概率(correspondingprobability),被用来测量查询到查询的相似度,是由给出的。因为矩阵A和B是稀疏的,所以可以高效地计算矩阵积C=AB。随着k增加,Ck变得稠密,而不能高效地计算该幂。然而,随着k增加,搜索意图转变离开初始查询,因为概率在所有的查询上铺开。因此,可以将k设置为例如1或2。
对于QE,由关系估算部件112估算的方程式(1)的路径受约束的随机游走模型可以被重写如下:
P ( w | Q ) = Σ π ∈ B λ π P ( w | Q , π ) - - - ( 3 )
上面是B中的路径特征π的加权线性组合。因此,路径受约束的随机游走模型通过对组合路径的集合进行排序来执行QE,其中每个组合路径用于一对Q和w(例如,备选扩展项)。
下文从总体上描述了方程式3中B的构造。给定带标记并且有向的图300,路径类型的总数|B|可以随着路径长度的增加而指数地增长。因而,最大路径长度可以被设定为基本上任何整数(例如,最大长度可被设定成7,或基本上任何其它整数)。此外,可以利用预先定义的关系集合,其是选择性的,例如在表1中所示的。给定路径类型π,由于G中节点的数量,即使具有长度限制,实例化π的路径的总数仍可能是相当大的。例如,由于可以将一个单词基于经平滑的转化模型转化成任何其它单词,任何节点对(Q,Q')可以具有得分不为零的关系translate.Q2Q′(表1中的#2),因此使得过渡矩阵稠密。为了效率,通过在每一步随机游走之后留存(局部(partial))路径的一个子集(例如,前1000(局部)路径),可以保持过渡矩阵的乘法运算为稀疏的。
此外,可以通过生成训练数据并且使用该训练数据执行参数估计,来估计参数λπ(例如,分配给不同的路径类型110的权重)。用于对在方程式(3)中的参数λπ进行估计的训练数据被表示为D={(xi,yi)},其中xi是对(pair)(Qi,wi)的路径特征的矢量。也就是说,xi的第j个分量是P(wi|Qi,πj),而yi是布尔变量,其指示着wi是否为对于Qi适当的扩展项。
例如,假定开发出相关性判定集合(relevancejudgmentset)。该集合可以包括一个查询集合。每个查询与一个文档集合相关联。每个查询-文档对具有相关标记(relevantlabel)。可以在该集合上估算文档排序模型Score(D,Q)的有效性。通过检验用w来扩展Q是否会导致增强的文档排序结果,可以确定单词w是否为对于查询Q适当的扩展。例如,可以利用如下的排序模型:
S c o r e ( D , Q ) = α log P ( w | θ D ) + Σ q ∈ Q P ( q | θ Q ) log P ( q | θ D ) - - - ( 4 )
如在方程式(4)中所阐述的,w是在考虑中的扩展项,α是它的权重,q是在原始查询Q中的一个项,而θQ和θD分别是查询模型和文档模型。查询模型P(q|θQ)通过不具有平滑的MLE(最大似然估计)估计为:
P ( q | θ Q ) = t f ( q ; Q ) | Q | - - - ( 5 )
在上面,tf(q;Q)是q在Q中出现的次数,而|Q|是查询的长度。文档模型,例如,P(q|θD),可以通过具有狄利克雷平滑的MLE来估计为:
P ( q | θ D ) = t f ( w ; D ) + μ P ( w | C ) | D | + μ - - - ( 6 )
因此,tf(w;D)是w在D中出现的次数,|D|是文档的长度。μ是狄利克雷先验(例如,设定为2000),而P(w|C)是w在合集C上的概率,其可以通过不具有平滑的MLE来进行估计。
方程式(4)可以被视为具有单个项的简化形式的QE。它被用来标记w是否为对于Q适当的扩展项。为了简化训练数据生成过程,可以假定:w独立于其它扩展项而作用于该查询,并且每个扩展项以相等的权重添加到Q中,例如,α=0.01或α=-0.01。
训练数据可以如下生成。对于相关性判定集合中的每个查询Q,可以通过收集在与Q成对的文档中出现但却不在Q中出现的项,来形成备选扩展项的集合{wi}。然后,如果wi在α=0.01时增强对文档进行排序的有效性,并且在α=-0.01时负面影响对文档进行排序的有效性,则可以将wi标记为对于Q适当的扩展项。如果wi产生相反的效果,或在α=0.01时和在α=-0.01时产生相同的效果,可以将wi否定地标记。
此外,参数λπ可以根据训练数据如下估计。给定训练数据D,为优化模型参数λ=〈λππ∈B,可以通过将下列对象最大化:
在上面,α1和α2分别控制L1正则化(其帮助结构选择)和L2正则化(其帮助缓和过度拟合)的强度。f(x,y;λ)是训练样本(x,y)的对数似然比,并且被定义为:
f(x,y;λ)=ylogP(x,λ)++(1-y)log(1-P(x,λ))(8)
此外,
P ( x , λ ) ≡ P ( y = 1 | x , λ ) = exp ( λ T x ) 1 + exp ( λ T x ) - - - ( 9 )
是模型预测概率。所述最大化例如可以使用OWL-QN(Orthant-WiseLimitedmemoryQuasi-Newton)算法来执行,这是L-BFGS(limitedmemoryBroyden-Fletcher-Goldfarb-Shannoalgorithm)的一个被设计用于解决不可微分的L1范式的版本。
方程式(3)的基于路径受约束的随机游走的模型可以给每个路径类型分配一个权重。这样的参数化被称为“每个路径类型一个权重(one-weight-per-path-type)”。将模型参数化的一种替代方式是“每个边标记一个权重(one-weight-per-edge-label)”。例如,如上所述的目标函数和优化程序,可以相似地被用于对“每个边标记一个权重”进行参数估计。因为模型可被视为路径受约束的随机游走的组合,其中每条路径将其权重设定为沿着该路径的边权重的乘积,边权重的梯度可以计算如下:首先计算关于路径的梯度,并且然后应用导数的链式法则。
一般而言,在本文中提供的技术将搜索日志用于QE以进行网络搜索排序。描述了基于路径受约束的随机游走的QE技术,其中搜索日志被表示为带标记的有向的图,而对于输入查询选择扩展项的概率是通过在该图上的受约束的随机游走的学习组合来计算的。这样的用于QE的基于路径受约束的随机游走的方法是通用且灵活的,其中各种QE模型可作为特征被纳入,同时还允许纳入另外的特征(例如,以后开发的),通过将路径类型用游走行为的富集来定义。路径受约束的随机游走模型也提供了原则性的数学框架,其中不同的QE模型(例如,定义为路径类型或特征)可以用统一的方式纳入,因此缓解了对点进数据的稀疏性和用户查询的模糊搜索意图的敏感性。
此外,如本文中所指出的,虽然前述例子中许多都涉及针对查询扩展而利用路径受约束的随机游走,可以预见的是,可以替代地针对查询-文档匹配而利用本文阐述的基于路径受约束的随机游走的技术(例如,直接地用于网络文档排序)。例如,查询Q和文档D的相关性得分可以被建模为一个概率,通过从Q到D的路径受约束的随机游走的学习组合来计算,其中不同的文档排序模型可以作为路径类型而被纳入。遵循此例子,除了点进数据之外,还可以为构造G而纳入其它数据源,例如网络文档的链接图和类别结构。
图9至10示出了关于使用路径受约束的随机游走的示例性方法。虽然所述方法被示出和描述为以一序列执行的一系列行为,但应当理解和领会,所述方法并不受该序列的顺序的限制。例如,一些行为可以用不同于本文中描述的次序发生。此外,一个行为可以和另一个行为同时地进行。此外,在一些实例中,可能并不是所有的行为都是对于实施本文中描述的方法所必需的。
此外,本文描述的行为可以是计算机可执行指令,其可被一个或多个处理器实施和/或被存储在一个或多个计算机可读介质上。计算机可执行指令可以包括例程、子例程、程序、执行线程,和/或类似物。再另外,所述方法中的行为的结果可以在计算机可读介质上存储、在显示设备上显示,和/或诸如此类。
图9示出了使用路径受约束的随机游走的方法900。在902,可以接收输入查询。在904,可以基于所述输入查询在计算机实施的带标记并且有向的图上执行路径受约束的随机游走。在906,可以至少部分地基于路径受约束的随机游走来计算在目标节点和表示输入查询的源节点之间的关系的得分。
现在转到图10,示出的是一种方法1000,用于使用路径受约束的随机游走执行查询扩展或查询-文档匹配。在1002,可以基于输入查询在计算机实施的带标记并且有向的图上执行路径受约束的随机游走。在1004,可以确定按照不同的预先定义路径类型对图上在节点之间的边进行遍历的路径受约束的随机游走的各自的值。在1006,按照不同的预先定义路径类型对图上在节点之间的边进行遍历的路径受约束的随机游走的各自的值可以被组合,以计算在目标节点和表示输入查询的源节点之间的关系的得分。
现在参考图11,示出了可以根据本文中公开的系统和方法使用的示例性计算设备1100的高层次图示。例如,计算设备1100可以用于执行路径受约束的随机游走以进行查询扩展和/或查询-文档匹配的系统中。通过另一示例,计算设备1100可以用于基于来自搜索日志的点进数据来构造带标记并且有向的图的系统中。计算设备1100包括至少一个处理器1102,其执行存储在存储器1104中的指令。所述指令可以是,例如,用于实施被描述为由上文讨论的一个或多个部件实现的功能的指令,或用于实施上文所描述的一个或多个方法的指令。处理器1102可以借助于系统总线1106来访问存储器1104。除了存储可执行指令之外,存储器1104还可以存储带标记并且有向的图、关系的得分、排序表、点进数据,等等。
计算设备1100还包括数据存储区1108,其可由处理器1102借助于系统总线1106来访问。数据存储区1108可以包括可执行指令、带标记并且有向的图、关系的得分、排序表、点进数据,等等。计算设备1100还包括输入接口1110,其允许外部设备与计算设备1100相通信。例如,可以使用计算接口1110来接收来自外部计算机设备、来自用户等等的指令。计算设备1100还包括输出接口1112,其利用一个或多个外部设备与计算设备1100相接。例如,计算设备1100可以借助于输出接口1112来显示文本、图像等等。
可以预见的是,经由输入接口1110和输出接口1112与计算设备1100相通信的外部设备,可以被包括在这样的环境中,其提供能够与用户进行交互的基本任何类型的用户接口。用户接口的例子包括图形用户接口、自然用户接口、以及诸如此类。例如,图形用户接口可以接受来自采用例如键盘、鼠标、遥控器等的(一个或多个)输入设备的用户的输入,并且在诸如显示器的输出设备上提供输出。此外,自然用户接口可以使得用户能够以免除了由输入设备例如键盘、鼠标、遥控器等所施加的约束的方式与计算设备1100交互。此外,自然用户接口可以依赖于语音识别、触摸和触笔识别、在屏幕上和在屏幕附近的手势识别、空中手势、头部和眼睛跟踪、话音和语音、视觉、触觉、手势、机器智能、等等。
此外,虽然计算设备1100被描述为单个系统,但应当理解,其可以是分布式系统。因此,例如,若干设备可以借助于网络连接相通信、并且可以共同地执行被描述为由计算设备1100执行的任务。
如本文所用的,术语“部件”和“系统”旨在涵盖计算机可读数据存储设备,其被配置为具有计算机可执行指令,所述计算机可执行指令当被处理器执行时使得特定功能被执行。计算机可执行指令可以包括例程、功能等。还应当理解,部件或系统可被定位在单个设备上,或分布在若干设备上。
此外,如本文中所用的,术语“示例性”是想要意指“充当某事物的说明或例子”。
本文中所描述的各种功能可以用硬件、软件或其任何组合来实现。如果用软件实现,则功能可以作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质被传输。计算机可读介质包括计算机可读存储介质。计算机可读存储介质可以是能够被计算机访问的任何可用的存储介质。通过示例而非限制的方式,这样的计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储器、磁盘存储器或其它磁性存储设备、或任何其它能够用于运载或存储采用指令形式或数据结构形式的期望的程序代码且可被计算机访问的介质。如本文所使用的“盘(disk)”和“碟片(disc)”,包括光盘(CD)、激光碟片、光学碟片、数字通用光盘(DVD)、软盘,以及蓝光碟片(BD),其中“盘”通常是以磁的方式再制数据,而“碟片”通常是以光学的形式用激光来再制数据。此外,传播的信号不包括在计算机可读存储介质的范围内。计算机可读介质还可以包括通信介质,其包括便利于将计算机程序从一个地方传递到另一个地方的任何介质。例如,连接可以是通信介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字用户线路(DSL)或例如红外、无线电和微波的无线技术从网站、服务器或其它远程源传输的,则同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电和微波的无线技术包括在通信介质的定义中。上述的组合也应被包括在计算机可读介质的范围内。
可替代地,或另外地,在本文中描述的功能可以至少部分地通过一个或多个硬件逻辑部件来执行。可使用的硬件逻辑部件的示例性类型包括,例如但不限于:现场可编程门阵列(FPGA)、程序专用集成电路(ASIC)、程序专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)等等。
上文所描述的内容包括了一个或多个实施例的例子。当然,并不可能出于描述上述各方面的目的而对每一个可设想到的对上述设备或方法的修改和更改进行描述,但本领域普通技术人员能够认识到,对各个方面做出进一步的许多修改和置换是可能的。因此,所描述的方面旨在涵盖所有这样的更改、修改和变型,其落入所附权利要求的精神和范围之内。此外,就将术语“包括”用在具体实施方式或权利要求中这方面而言,该术语旨在是包容性的,以与术语“包含”相似的方式,如同当“包含”在权利要求中作为衔接词被采用时所被解释的那样。

Claims (10)

1.一种方法,包括下列计算机能够执行的行为:
接收输入查询;
基于所述输入查询在计算机实现的、带标记并且有向的图上执行路径受约束的随机游走,其中所述带标记并且有向的图包括:
第一节点集合,所述第一节点集合表示被包括在来自搜索日志的点进数据中的查询;
第二节点集合,所述第二节点集合表示被包括在来自所述搜索日志的所述点进数据中的文档;
第三节点集合,所述第三节点集合表示来自所述查询和所述文档的单词;以及
在位于节点之间的边,所述边表示在所述查询、所述文档和所述单词之间的关系;
其中所述路径受约束的随机游走包括在所述图的节点之间的边上进行的遍历;以及
至少部分地基于所述路径受约束的随机游走,计算在目标节点与表示所述输入查询的源节点之间的关系的得分。
2.根据权利要求1所述的方法,其中,所述第三节点集合包括所述目标节点,其中,所述目标节点表示备选查询扩展项,其中,所述输入查询被期望地输入到搜索引擎中,并且其中所述方法还包括:
至少部分地基于在表示所述备选查询扩展项的所述目标节点和表示所述输入查询的所述源节点之间的所述关系的得分,选择所述备选查询扩展项;以及
响应于选择所述备选查询扩展项,使所述搜索引擎能够至少部分地基于所述备选查询扩展项在多个文档上执行搜索。
3.根据权利要求1所述的方法,其中,所述第三节点集合包括所述目标节点,其中,所述目标节点表示备选查询扩展项,其中,所述输入查询被期望地输入到搜索引擎中,并且其中所述方法还包括:
至少部分地基于在表示所述备选查询扩展项的所述目标节点和表示所述输入查询的所述源节点之间的所述关系的得分,选择所述备选查询扩展项;以及
响应于选择所述备选查询扩展项,使所述搜索引擎能够将所述备选查询扩展项显示为建议查询。
4.根据权利要求1所述的方法,还包括:基于在表示所述备选查询扩展项的目标节点和表示所述输入查询的所述源节点之间的对应关系的各自的得分,输出备选查询扩展项的排序表。
5.根据权利要求1所述的方法,其中,所述第二节点集合包括所述目标节点,其中,所述目标节点表示备选文档,其中,所述输入查询被期望地输入到搜索引擎中,并且其中所述方法还包括:
响应于由所述搜索引擎执行的在多个文档上的搜索的执行,返回所述备选文档,其中,所述备选文档是至少部分地基于在表示所述备选文档的所述目标节点和表示所述输入查询的所述源节点之间的所述关系的得分而由所述搜索引擎返回的。
6.根据权利要求1所述的方法,其中,计算在所述目标节点与表示所述输入查询的所述源节点之间的所述关系的得分还包括:
确定针对在所述目标节点与表示所述输入查询的所述源节点之间的所述路径受约束的随机游走的各自的值,其中,所述路径受约束的随机游走根据不同的路径类型从表示所述输入查询的所述源节点到所述目标节点对所述图的节点之间的边进行遍历;以及
将根据不同的路径类型从表示所述输入查询的所述源节点到所述目标节点对所述图的节点之间的边进行遍历的所述路径受约束的随机游走的各自的值进行组合,以计算在所述目标节点与表示所述输入查询的所述源节点之间的所述关系的得分。
7.一种计算装置,包括:
处理器,以及
存储器,其包括由所述处理器执行的部件,所述部件包括:
随机游走部件,其基于输入查询在带标记并且有向的图上执行路径受约束的随机游走,其中,所述带标记并且有向的图包括:
第一节点集合,所述第一节点集合表示被包括在来自搜索日志的点进数据中的查询;
第二节点集合,所述第二节点集合表示被包括在来自所述搜索日志的所述点进数据中的文档;
第三节点集合,所述第三节点集合表示来自所述查询和所述文档的单词;以及
在节点之间的边,所述边表示在所述查询、所述文档和所述单词之间的关系;以及
关系估算部件,其至少部分地基于所述路径受约束的随机游走,来计算在表示备选查询扩展项的目标节点与表示所述输入查询的源节点之间的关系的得分。
8.根据权利要求7所述的计算装置,其中,所述路径受约束的随机游走实例化各自的不同的路径类型,并且其中,所述关系估算部件确定针对实例化所述各自的不同的路径类型的所述路径受约束的随机游走的各自的值,并且将实例化所述各自的不同的路径类型的所述路径受约束的随机游走的所述各自的值进行组合,以计算在表示所述备选查询扩展项的所述目标节点和表示所述输入查询的所述源节点之间的所述关系的得分。
9.根据权利要求7所述的计算装置,其中,所述路径受约束的随机游走根据预先定义的路径类型对所述图的节点之间的边进行遍历,并且其中,所述预先定义的路径类型中的每个包括在所述图中的节点之间的关系的各自的序列,用于作为来自所述路径受约束的随机游走中的对应的路径受约束的随机游走的一部分来进行遍历。
10.一种包括计算机可执行指令的计算机可读存储介质,所述计算机可执行指令当被处理器执行时,使所述处理器能够执行包括下列的行为:
接收输入查询;
基于所述输入查询在计算机实现的、带标记并且有向的图上执行路径受约束的随机游走,其中,所述带标记并且有向的图包括:
第一节点集合,所述第一节点集合表示被包括在来自搜索日志的点进数据中的查询;
第二节点集合,所述第二节点集合表示被包括在来自所述搜索日志的所述点进数据中的文档;
第三节点集合,所述第三节点集合表示来自所述查询和所述文档的单词;以及
在节点之间的边,所述边表示在所述查询、所述文档和所述单词之间的关系;
其中,所述路径受约束的随机游走在表示所述输入查询的源节点处开始,根据不同的预先定义的路径类型对所述图的节点之间的边进行遍历,并且在表示备选文档的目标节点处结束;
确定针对根据所述不同的预先定义的路径类型对所述图的节点之间的边进行遍历的所述路径受约束的随机游走的各自的值;以及
将根据所述不同的预先定义的路径类型对所述图的节点之间的边进行遍历的所述路径受约束的随机游走的各自的值进行组合,以计算在表示所述备选文档的所述目标节点与表示所述输入查询的所述源节点之间的关系的得分。
CN201480042201.6A 2013-07-26 2014-07-24 使用路径受约束的随机游走的查询扩展和查询-文档匹配 Active CN105659225B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/951,574 2013-07-26
US13/951,574 US9286396B2 (en) 2013-07-26 2013-07-26 Query expansion and query-document matching using path-constrained random walks
PCT/US2014/047920 WO2015013469A1 (en) 2013-07-26 2014-07-24 Query expansion and query-document matching using path-constrained random walks

Publications (2)

Publication Number Publication Date
CN105659225A true CN105659225A (zh) 2016-06-08
CN105659225B CN105659225B (zh) 2019-09-13

Family

ID=51299058

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480042201.6A Active CN105659225B (zh) 2013-07-26 2014-07-24 使用路径受约束的随机游走的查询扩展和查询-文档匹配

Country Status (4)

Country Link
US (1) US9286396B2 (zh)
EP (1) EP3025254A1 (zh)
CN (1) CN105659225B (zh)
WO (1) WO2015013469A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291914A (zh) * 2017-06-27 2017-10-24 达而观信息科技(上海)有限公司 一种生成搜索引擎查询扩展词的方法及系统
CN109658094A (zh) * 2017-10-10 2019-04-19 阿里巴巴集团控股有限公司 随机游走、基于集群的随机游走方法、装置以及设备
WO2020003146A1 (en) * 2018-06-29 2020-01-02 International Business Machines Corporation Query expansion using a graph of question and answer vocabulary
CN111368050A (zh) * 2020-02-27 2020-07-03 腾讯科技(深圳)有限公司 文档页面的推送方法、装置
US10901971B2 (en) 2017-10-10 2021-01-26 Advanced New Technologies Co., Ltd. Random walking and cluster-based random walking method, apparatus and device
WO2023178579A1 (en) * 2022-03-24 2023-09-28 Huawei Technologies Co.,Ltd. Method and system for multimodal based image searching and synthesis

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9286396B2 (en) * 2013-07-26 2016-03-15 Microsoft Technology Licensing, Llc Query expansion and query-document matching using path-constrained random walks
US9965521B1 (en) * 2014-02-05 2018-05-08 Google Llc Determining a transition probability from one or more past activity indications to one or more subsequent activity indications
US10305917B2 (en) * 2015-04-16 2019-05-28 Nec Corporation Graph-based intrusion detection using process traces
US11120351B2 (en) * 2015-09-21 2021-09-14 International Business Machines Corporation Generic term weighting based on query performance prediction
US10599656B1 (en) * 2016-03-04 2020-03-24 Twitter, Inc. Indexing and data storage for realtime and contemporaneous content suggestions
CN107451157B (zh) * 2016-06-01 2020-12-18 阿里巴巴集团控股有限公司 异常数据识别方法、装置及系统、搜索方法及装置
US11868916B1 (en) * 2016-08-12 2024-01-09 Snap Inc. Social graph refinement
CN108304354B (zh) * 2018-01-25 2021-08-24 腾讯科技(深圳)有限公司 一种预测模型训练方法及装置、存储介质、电子设备
CN109165322B (zh) * 2018-08-01 2022-04-19 成都数联铭品科技有限公司 基于路径关系的网络特征提取系统及方法
US10970291B2 (en) * 2018-08-10 2021-04-06 MachineVantage, Inc. Detecting topical similarities in knowledge databases
US10621235B1 (en) * 2019-05-13 2020-04-14 Redis Labs Ltd. Methods, systems, and media for resolving database queries using algebraic expressions using matrix-matrix multiplication
CN111832602B (zh) * 2020-04-13 2023-12-08 北京嘀嘀无限科技发展有限公司 基于地图的特征嵌入方法、装置、存储介质和电子设备
CN112463989A (zh) * 2020-12-11 2021-03-09 交控科技股份有限公司 一种基于知识图谱的信息获取方法及系统
CN113612749B (zh) * 2021-07-27 2022-04-01 华中科技大学 一种面向入侵行为的溯源数据聚类方法及装置
US20230244727A1 (en) * 2022-01-30 2023-08-03 Walmart Apollo, Llc Systems and methods for improving search result personalization and contextualization using machine learning models

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007024594A2 (en) * 2005-08-24 2007-03-01 Yahoo! Inc. Providing predictive search results prior to completion of search query
US20070083369A1 (en) * 2005-10-06 2007-04-12 Mcculler Patrick Generating words and names using N-grams of phonemes
US20090234832A1 (en) * 2008-03-12 2009-09-17 Microsoft Corporation Graph-based keyword expansion
US20110131157A1 (en) * 2009-11-28 2011-06-02 Yahoo! Inc. System and method for predicting context-dependent term importance of search queries
US20110289063A1 (en) * 2010-05-21 2011-11-24 Microsoft Corporation Query Intent in Information Retrieval
US20120096042A1 (en) * 2010-10-19 2012-04-19 Microsoft Corporation User query reformulation using random walks
US20120131031A1 (en) * 2010-11-22 2012-05-24 Microsoft Corporation Dependency-based query expansion alteration candidate scoring

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7565627B2 (en) 2004-09-30 2009-07-21 Microsoft Corporation Query graphs indicating related queries
US7962479B2 (en) 2005-11-09 2011-06-14 Yahoo! Inc. System and method for generating substitutable queries
US20110119269A1 (en) 2009-11-18 2011-05-19 Rakesh Agrawal Concept Discovery in Search Logs
US9286396B2 (en) * 2013-07-26 2016-03-15 Microsoft Technology Licensing, Llc Query expansion and query-document matching using path-constrained random walks

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007024594A2 (en) * 2005-08-24 2007-03-01 Yahoo! Inc. Providing predictive search results prior to completion of search query
US20070083369A1 (en) * 2005-10-06 2007-04-12 Mcculler Patrick Generating words and names using N-grams of phonemes
US20090234832A1 (en) * 2008-03-12 2009-09-17 Microsoft Corporation Graph-based keyword expansion
US20110131157A1 (en) * 2009-11-28 2011-06-02 Yahoo! Inc. System and method for predicting context-dependent term importance of search queries
US20110289063A1 (en) * 2010-05-21 2011-11-24 Microsoft Corporation Query Intent in Information Retrieval
US20120096042A1 (en) * 2010-10-19 2012-04-19 Microsoft Corporation User query reformulation using random walks
US20120131031A1 (en) * 2010-11-22 2012-05-24 Microsoft Corporation Dependency-based query expansion alteration candidate scoring

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
NI LAO等: "Relational retrieval using a combination of path-constrained random walks", 《MACHINE LEARNING》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291914A (zh) * 2017-06-27 2017-10-24 达而观信息科技(上海)有限公司 一种生成搜索引擎查询扩展词的方法及系统
CN109658094A (zh) * 2017-10-10 2019-04-19 阿里巴巴集团控股有限公司 随机游走、基于集群的随机游走方法、装置以及设备
US10776334B2 (en) 2017-10-10 2020-09-15 Alibaba Group Holding Limited Random walking and cluster-based random walking method, apparatus and device
CN109658094B (zh) * 2017-10-10 2020-09-18 阿里巴巴集团控股有限公司 随机游走、基于集群的随机游走方法、装置以及设备
US10901971B2 (en) 2017-10-10 2021-01-26 Advanced New Technologies Co., Ltd. Random walking and cluster-based random walking method, apparatus and device
WO2020003146A1 (en) * 2018-06-29 2020-01-02 International Business Machines Corporation Query expansion using a graph of question and answer vocabulary
US10678822B2 (en) 2018-06-29 2020-06-09 International Business Machines Corporation Query expansion using a graph of question and answer vocabulary
US11321371B2 (en) 2018-06-29 2022-05-03 International Business Machines Corporation Query expansion using a graph of question and answer vocabulary
CN111368050A (zh) * 2020-02-27 2020-07-03 腾讯科技(深圳)有限公司 文档页面的推送方法、装置
CN111368050B (zh) * 2020-02-27 2023-07-21 腾讯科技(深圳)有限公司 文档页面的推送方法、装置
WO2023178579A1 (en) * 2022-03-24 2023-09-28 Huawei Technologies Co.,Ltd. Method and system for multimodal based image searching and synthesis

Also Published As

Publication number Publication date
CN105659225B (zh) 2019-09-13
US9286396B2 (en) 2016-03-15
US20150032767A1 (en) 2015-01-29
EP3025254A1 (en) 2016-06-01
WO2015013469A1 (en) 2015-01-29

Similar Documents

Publication Publication Date Title
CN105659225A (zh) 使用路径受约束的随机游走的查询扩展和查询-文档匹配
CN111611361B (zh) 抽取式机器智能阅读理解问答系统
CN106663124B (zh) 生成和使用知识增强型模型
Tang et al. Using Bayesian decision for ontology mapping
Ghosh et al. A tutorial review on Text Mining Algorithms
CN101630314B (zh) 一种基于领域知识的语义查询扩展方法
CN101582080A (zh) 一种基于图像和文本相关性挖掘的Web图像聚类方法
US20060004753A1 (en) System and method for document analysis, processing and information extraction
CN104298776B (zh) 基于lda模型的搜索引擎结果优化系统
CN105393265A (zh) 人机交互学习中的主动特征化
CN106663117A (zh) 构造支持提供探索性建议的图
CN108090231A (zh) 一种基于信息熵的主题模型优化方法
Rinaldi et al. A matching framework for multimedia data integration using semantics and ontologies
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN105260488A (zh) 一种用于语义理解的文本序列迭代方法
CN110888991A (zh) 一种弱标注环境下的分段式语义标注方法
CN107688870A (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
CN111368555B (zh) 一种数据识别方法、装置、存储介质和电子设备
Nevzorova et al. Towards a recommender system for the choice of UDC code for mathematical articles
Nargesian et al. Data lake organization
CN110851584A (zh) 一种法律条文精准推荐系统和方法
CN112417170B (zh) 面向不完备知识图谱的关系链接方法
CN109344319B (zh) 一种基于集成学习的线上内容热度预测方法
Pimentel et al. Searching and Ranking Educational Resources based on Terms Clustering.
Lotf et al. Multi-label classification: a novel approach using decision trees for learning label-relations and preventing cyclical dependencies: Relations Recognition and Removing Cycles (3RC)

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant