CN102521335A - 知晓时间-位置的移动查询建议 - Google Patents

知晓时间-位置的移动查询建议 Download PDF

Info

Publication number
CN102521335A
CN102521335A CN2011104047287A CN201110404728A CN102521335A CN 102521335 A CN102521335 A CN 102521335A CN 2011104047287 A CN2011104047287 A CN 2011104047287A CN 201110404728 A CN201110404728 A CN 201110404728A CN 102521335 A CN102521335 A CN 102521335A
Authority
CN
China
Prior art keywords
inquiry
user
time
candidate
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011104047287A
Other languages
English (en)
Other versions
CN102521335B (zh
Inventor
倪晓川
孙建涛
陈正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN102521335A publication Critical patent/CN102521335A/zh
Application granted granted Critical
Publication of CN102521335B publication Critical patent/CN102521335B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了知晓时间-位置的移动查询建议。各种技术描述了响应于在移动计算设备上提交的查询输入通过集成时间和位置来推荐移动查询建议。一过程通过从移动搜索日志中提取提交查询的用户并将时间和位置与所提交的查询相关联来构造二分图。该过程确定用户相似地在相似的时间和相似的位置提交相似的查询。该过程接收与移动计算设备的当前时间和当前位置相关联的查询输入。接着,该过程基于已经提交候选查询和查询输入两者的用户组之间的相似性以及该用户先前发出查询输入和候选查询的时间和位置的距离来计算候选查询与查询输入的相关性。

Description

知晓时间-位置的移动查询建议
技术领域
本发明涉及通过集成时间和位置来推荐移动查询建议的技术。
背景技术
搜索引擎公司向用户提供方便的搜索服务,诸如个人计算机(PC)web搜索。最近,搜索引擎公司正在实现用于移动计算设备的移动搜索引擎应用程序。移动搜索在若干方面不同于PC web搜索。一个区别是对于移动搜索查询,用户往往键入更短的文本输入,因为在移动计算设备上输入文本通常是困难或笨拙的。另一个区别是进行移动搜索的用户通常喜欢所返回的搜索结果与查询时间和/或用户的当前位置相关。又一个区别是移动搜索查询的结果由于移动计算设备具有比PC少的带宽和小得多的屏幕来显示信息而受限。
上面提及的搜索引擎公司中的大多数通过提供查询建议来简化移动搜索的查询输入。例如,在用户开始输入文本输入时,搜索引擎通过提供与该用户正在输入的文本串在语义上相关的查询的列表来提供实时查询建议以帮助用户。然而,移动搜索引擎往往基于PC web搜索来调整查询建议技术,而不会为了满足移动搜索查询的需求来作出改变。因此,变得难以在为移动搜索查询提供查询建议时集成其他因素。
发明内容
本发明内容描述通过将时间和位置信息集成在对在移动计算设备上提交的查询输入的响应中来推荐移动查询建议。对移动查询建议的推荐集成了当查询输入被提交时的当前时间和移动计算设备的当前位置。
在一种实现中,一过程通过从移动搜索日志提取查询来构建二分图。该过程为查询中的每一个标识发送查询的用户、用户发送查询的时间和用户发送查询的位置。该过程基于二分图并至少部分基于以下之间的相似性来计算用户之间的相似性:(1)查询,(2)用户提交查询的时间,和(3)用户提交查询的位置。然后,该过程从特定的用户的移动计算设备接收与当前时间和移动计算设备的当前位置关联的查询输入。然后,该过程可以响应于查询输入的接收而从二分图标识候选查询,候选查询至少包含由先前已经提交过所接收的查询输入的用户先前提交的查询的部分。接着,该过程至少部分基于以下来计算候选查询中的每一个与查询输入的相关性:(1)提交候选查询的各个用户和特定的用户之间的所计算的相关性,(2)与所接收的查询输入关联的当前时间和当提交候选查询时的时间之间的差异,以及(3)与所接收的查询输入关联的当前位置和提交候选查询的位置之间的距离。
在另一实现中,一过程从特定的用户的移动计算设备接收与当前时间关联并与移动计算设备的当前位置关联的查询输入。至少部分基于对所接收的查询输入的响应,该过程访问从移动搜索日志构建的查询-用户图,移动搜索为多个查询中的每一个而标识发送查询的用户、用户发送查询的时间和用户发送查询的位置。该过程还至少部分基于以下来标识与查询输入相关的候选查询:至少部分基于查询之间的相似性、用户提交查询的时间和用户提交查询的位置来计算来自的查询-用户图用户之间的相似性。通过至少部分基于以下来计算候选查询中的每一个与所接收的查询输入的相关性,该过程还来标识候选查询:(i)与所接收的查询输入关联的当前时间和提交候选查询的时间之间的差异,以及(ii)与所接收的查询输入关联的当前位置和发送候选查询的位置之间的距离。
提供本发明内容以便以简化形式描述下面在具体实施方式中进一步描述的概念选集。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于限制所要求保护的主题的范围。
附图说明
参考附图描述具体实施方式。附图中,参考数字最左边的数字标识该参考数字首次在其中出现的图。在不同的图中使用相同的参考数字指示相似的或相同的项或特征。
图1示出用于响应于查询输入而将时间和位置信息集成到移动查询建议中的说明性体系结构环境。
图2是示出用于提供移动查询建议以供图1的体系结构使用的说明性高级阶段的流程图。
图3是示出预处理移动搜索日志以便构建二分图并评估流量模式的说明性过程的流程图。
图4阐释查询流量模式的线图(plot)的示例图。
图5示出记录查询和用户之间的历史交互的说明性查询-用户图。
图6是示出基于查询发出历史来计算用户之间的相似性的说明性过程的流程图。
图7是示出计算相关性和推荐移动查询建议的说明性过程的流程图。
图8示出确定查询和候选查询相关性之间的说明性二分图。
图9是示出可与图1的体系结构一起使用的说明性服务器的框图。
具体实施方式
概览
本发明内容描述集成与查询输入关联的时间和位置信息以便改善移动查询建议。举例来说,时间-位置知晓(TLA)应用程序可以作为移动搜索引擎而操作以提供相关的查询建议,这些查询建议是供用户进行进一步搜索的推荐。度量相似的查询之间的距离的典型方法包括:使用关键字或查询短语,在查询之间匹配关键字,将通常被点击的统一资源定位符(URL)与查询关联起来,或计算与查询关联的被点击的文档之间的相似性。TLA应用程序还将这些方法分类成两种类型,即基于内容的方法和基于链接的度量。基于内容的方法基于串匹配或语义相似性来建议查询。基于链接的度量通过开拓查询节点之间的链接来建议相关的查询而不考虑查询的内容和语义信息。在下列讨论中,TLA应用程序应用基于链接的度量。
TLA应用程序响应于时间和位置敏感的查询输入而提供移动查询建议。举例来说,想象用户在大约下午五点在纽约市(NYC)华尔街附近提交对“饭店”的查询。TLA应用程序将该输入捕捉为用户提交查询的时间特性(在此为午餐时间左右)和用户提交查询时移动计算设备的位置(在此为纽约市华尔街地区附近)。然后,当向用户提供查询建议时,TLA应用程序可以考虑此所捕捉的时间和位置。在一些实例中,TLA应用程序将查询建议提供为以降序的相关查询的已排名项。举例来说,TLA应用程序可以提供最相关的查询“Delmonico’s”(位于华尔街附近的历史上著名的餐馆)、“Bayard’s”(靠近华尔街的法国餐厅饭店)、“Harry’s Caféand Steak”(华尔街附近的牛排饭店)和纽约市华尔街地区周围的其他饭店。因而,TLA应用程序基于至少三种输入来提供移动查询建议:查询输入、查询输入的时间(例如,午餐时间等)和用于提交查询输入的移动计算设备的当前位置(例如,靠近纽约市华尔街等)。
起初,TLA应用程序从已经许可收集他们的数据的用户接收或收集移动搜索日志。TLA应用程序构建查询-用户图(例如,二分图)以从移动搜索日志提取提交查询的用户。此信息可以称为查询发出历史,其捕捉已经由用户提交的查询以标识对时间和位置敏感的查询模式。TLA应用程序将时间(例如,何时)和位置(例如,何地)信息与所提交的查询关联起来。当前位置是指提交查询的用户的计算设备的位置。
TLA应用程序还基于用户的查询发出历史来计算两个用户之间的相似性。TLA应用程序可以将TLA转换应用到查询-用户图。TLA转换是通过考虑在转换期间的外出邻居来计算从第一节点到第二节点的概率的马尔可夫转换过程。
TLA应用程序还将相关性度量应用于标识相关查询以得到移动查询建议。传统的查询建议方法通过两个查询的公共用户或URL来度量两个查询之间的相关性。然而,TLA应用程序确定候选查询是否与查询输入相关、候选查询和查询输入何时由许多相似的用户在大约相似的时间和在大约相似的位置提交(例如,发出)。通过基于候选查询和查询输入的发出历史和用户组来度量候选查询和查询输入之间的相关性,TLA应用程序将基于链接的度量应用于捕捉此信息。TLA应用程序通过进一步开拓与链接关联的时间和位置信息来产生结果。此外,TLA应用程序计算候选查询的时间和位置和当前正在被提交的查询输入的时间和位置的距离,以及候选查询的时间和位置和已经被提交的查询输入的时间和位置的距离。
集成了时间和位置信息的移动查询建议可以用于搜索引擎和网站。在一些实现中,移动查询建议可以被呈现在因特网浏览器、网站、本地数据库或本地操作系统的下拉列表中。
尽管所描述的技术的诸方面可以在任何数量的不同的计算系统、环境和/或配置中实现,但在下列示例计算环境的上下文中描述诸实现。
说明性环境
图1阐释示例体系结构环境100,其通过将时间和位置信息集成到建议中来提供移动查询建议。体系结构环境100包括被阐释为移动计算设备的示例计算设备102。计算设备102被配置为经由一个或多个网络104连接以供用户108访问移动搜索服务106。
计算设备102可以采用各种形式,包括但不限于便携式手持计算设备(例如,个人数字助理、智能电话、蜂窝式电话)、个人导航设备、膝上型计算机、便携式媒体播放器或能够访问移动搜索服务106的任何其他设备。
网络104表示任何类型的通信网络,包括基于有线的网络(例如,公用电话交换网络、有线电视网络和数据网络)和无线网络(例如,蜂窝式网络、卫星网络、WiFi网络和蓝牙网络)。
移动搜索服务106表示可以作为任何数量的在线服务提供器例如搜索引擎、社交网络站点等等的部分而操作的应用程序服务。用户108在计算设备102上输入查询文本。移动搜索服务106可以“实时”推荐移动查询建议110,“实时”被定义为以与接收输入基本上相同的时间产生建议。在一种实现中,移动搜索服务106可以在完成查询输入之后提供移动查询建议110。另外,移动搜索服务106可以包括另外的模块或可以与诸模块一起工作以便执行下面讨论的操作。
在所阐释的示例中,移动搜索服务106被主控在可以经由网络104访问的一个或多个服务器例如服务器112(1)、112(2)、...、112(S)。服务器112(1)-(S)可以被配置成多个独立的服务器,或可以被配置成服务器的集合,这些服务器被配置为执行用于移动查询建议的处理功能。服务器112(1)-(S)可以由向计算设备102和从计算设备102提供移动搜索服务106的网络服务提供器管理或主控。
移动搜索服务106可以在运行时间-位置知晓(TLA)应用程序114的服务器112(1)-(S)中的一个或多个上执行。TLA应用程序114利用查询输入、查询输入的时间和与用户108关联的计算设备102的当前位置来建议动态地变化的查询结果。
在所阐释的示例中,计算设备102可以包括在计算设备102的显示器上呈现的用户界面(UI)116。UI 116促进对提供实时网络化通信系统的移动搜索服务106的访问。在一种实现中,UI 116是呈现从TLA应用程序114接收的页面的基于浏览器的UI。例如,用户108采用UI 116来提交对来自移动搜索服务106的移动查询建议的请求。例如,UI 116可以允许不同的类型的输入,例如文本或言语。此外,尽管体系结构100将TLA应用程序114阐释为网络可访问的应用程序,但在其他实例中计算设备102可以主控TLA应用程序114。
在阐释中,用户108使用他们的计算设备102经由网络104访问移动搜索服务106或TLA应用程序114。移动搜索服务106呈现用户界面(UI)116以接收查询输入(例如,“饭店”)。然后,移动搜索服务106关联查询输入的当前时间(例如,上午、下午等)和计算设备102的当前位置(例如,在堪萨斯州威奇托市、在华盛顿州温哥华市等)。然后,移动搜索服务106基于由二分图确定的相关查询、相似性计算和相关性度量来提供移动查询建议110。这些功能性中的每一种都将更详细地讨论。
在所阐释的示例中,用户108在上午某个时间在温哥华市的第五大街附近提交查询“饭店”。作为响应,移动搜索服务106的TLA应用程序114至少部分基于查询、用户108提交查询的时间和用户108提交查询时移动设备102的位置(且因此是用户108的位置)来生成一个或多个查询建议110。在此示例中,移动搜索服务106生成“bagel spot”(温哥华市第五大街上的饭店)的查询建议110、“café”(温哥华市第六大街上的饭店)和“N个”可以包括靠近第五大街和第六大街的其他饭店的其他相关查询。
正如所阐释的那样,环境100可以包括数据库118,其可以被存储在分离的服务器上或被存储在可经由网络104访问的代表性的服务器组112上。数据库118可以存储由TLA应用程序114生成的移动查询搜索建议110。此外,数据库118可以主控用户的移动搜索日志以供构建二分图、计算用户之间的相似性和计算候选查询与查询输入的相关性之用,其中的每一个都在下面详细讨论。
说明性过程
图2-图3和图6-图7是示出示例过程的流程图。这些过程被阐释为逻辑流程图中的框的集合,这些框表示可以以硬件、软件或组合实现的操作序列。出于讨论目的,参考图1中示出的计算环境100描述这些过程。然而,可以使用不同的环境和设备来执行这些过程。此外,在此描述的环境和设备可以用于执行不同的过程。
为便于理解,这些方法被描绘成被表示为图中的独立的框的分离的步骤。然而,这些分离地描绘的步骤不应被解释成它们的性能必定依赖于次序。描述过程的次序不旨在被解释成限制,且任何数量的所描述的过程框可以以任何次序组合以实现该方法或替换的方法。此外,也可能忽略所提供的步骤中一个或多个。
图2是示出由移动搜索服务106和/或TLA应用程序114执行的高级函数的示例过程200的流程图。过程200可以被分成五个阶段:预处理移动搜索日志以构建二分图的初始阶段202,使用用户和查询之间的历史交互来构建二分图的第二阶段204,基于来自二分图的查询发出历史来计算用户之间的相似性的第三阶段206,接收与查询输入的时间和计算设备的当前位置关联的查询输入的第四阶段208,以及基于若干因素来计算候选查询与查询输入的相关性的第五阶段210。所有阶段都可以用于图1的环境、可以分离地执行或组合执行,且没有任何特定的次序。
第一阶段是预处理移动搜索日志以构建二分图202。在此,TLA应用程序114收集或接收包括个体用户的数据、查询和与查询关联的时间和位置信息在内的移动搜索日志。
第二阶段包含使用查询和用户之间的历史交互来构建二分图204。TLA应用程序114通过从移动搜索日志提取提交查询的用户来构建二分图。然后,TLA应用程序114形式化移动搜索日志,其中在一些实例中,移动搜索日志的每一记录被表示为四元条目(查询,用户,时间,位置)。二分图用对应于用户和查询之间的边的时间和位置信息来组织发出或提交查询(例如,示出为一顶点)的用户(例如,示出为另一顶点)。
第三阶段是基于来自二分图的查询发出历史来计算用户之间的相似性206。TLA应用程序114计算已经在大约相似的时间和大约相似的位置发出相似的查询的用户之间的相似性。
第四阶段是接收与查询输入的时间和计算设备的当前位置关联的查询输入208。查询输入可以经由文本或言语来提供。用户108对寻找涉及他或她的当前时间和当前位置的信息感兴趣。
第五阶段是基于若干因素来计算候选查询与查询输入的相关性210。如果候选查询和查询输入均由许多相似的用户在大约相似的时间和大约相似的位置发出,那么TLA应用程序114确定候选查询是否与查询输入相关。通过基于查询的发出历史和用户组来度量查询之间的相关性,TLA应用程序114应用基于链接的方法来捕捉此信息。
图3是示出预处理移动搜索日志以构建二分图的说明性过程202(以上以高级讨论)的流程图。此信息标识查询的时间和位置敏感的诸方面。
TLA应用程序114接收提交查询的用户的移动搜索日志300。移动搜索日志可以从全球定位系统(GPS)跟踪单元获得,GPS在车辆或人员靠近于GPS设备时标识车辆或人员的位置或跟踪车辆或人员的移动。例如,经由GPS设备或具有GPS功能性的移动计算设备而记录位置或移动。位置获取技术及其在人们生活中的使用的不断增加的普及使得可以每日收集GPS信息。移动搜索日志集合包括以小时和分钟表示的时间以及由经度和纬度对的GPS坐标表示的位置。
在跟踪或共享用户的移动和位置之前,向个体用户中的每一个询问他们的GPS数据是否可以作为移动搜索日志集合的部分而被包括在内。选项是个体用户可以选择决定参与或决定不参与他们的GPS数据的跟踪或共享。因而,GPS数据的跟踪可以要求明确的用户同意。
TLA应用程序114通过移除某些类型的查询(例如,含有不能采用的内容)和没有记录时间和位置信息的查询来预处理移动搜索日志。TLA应用程序114还可以使用Porter词干提取算法(Porter Stemming algorithm)来处理查询字。移动搜索日志可以包括超过一百万的唯一查询和超过一百五十万的用户。
TLA应用程序114将一天分成任何数量的“N”个时间范围302。在一个示例中,TLA应用程序114将一天下列四个时间范围:上午,从上午6点到中午12点;下午,从中午12点到下午6点;晚上,下午6点到午夜12点;以及夜间,从午夜12点到上午6点。
TLA应用程序114还将来自移动搜索日志的查询分成2N个类别304(例如,24=16个类别)。TLA应用程序114通过4位二进制代码来命名每一类别,4位二进制例如“0101”,其中“1”是指在相应的时间范围内发出或提交查询的频率。“1”被认为是比发出或提交的平均频率高的频率。TLA应用程序114标识带有单个“1”的四种典型的类别代码和它们的流行的查询,这些类别代码在下面的表I中示出。
表I示例查询类别和流行的查询
  类别代码 流行的查询内容
  1000(夜间) 娱乐、晨报(morning journals)、早餐
  0100(上午) 投资信息
  0010(下午) 牛排店、海鲜、比萨
  0001(晚上) 电视节目、娱乐、24小时便利店
表I指示查询随着时间而动态地变化。不同的时间范围可以具有不同的流行的查询。例如,投资信息可以是上午非常流行的活动。
TLA应用程序114基于诸因素将权重分配给特定查询306。作为示例而非限制,查询的加权因素可以包括查询的提交频率、查询的类型和提交查询的时间。权重可以由移动搜索服务106或TLA应用程序114预先配置,或在执行服务时预先配置,和/或由多个用户基于查询的频率进行精化。
TLA应用程序114在用户和最近的“X”个查询之间的平均距离上评估“X”个相关查询的流量模式308。
图4阐释查询流量模式的线图的示例图。例如,对于查询“饭店”,TLA应用程序114将信息绘制在图I中。该图示出用户与最接近用户108的计算设备102的所访问的饭店之间的平均距离上的“饭店”相关查询的流量模式。
轴上示出的是查询流量,且x轴上示出的是提交查询的用户的计算设备102和用户所访问的饭店之间的以米度量的距离(例如,平均距离)。移动搜索日志指示饭店的查询内容倾向于在距离上接近于用户108的计算设备102的位置。在此示例中,“饭店”相关的查询的大部分流量发生在到查询被提交给移动搜索引擎106的位置的距离少于1550米的饭店。
图5阐释构建记录查询和用户之间的历史交互的二分图的示例过程204(以上以高级讨论)。
TLA应用程序114从个体用户的移动搜索日志提取提交查询信息的用户。日志一般地可以是包括时间、经度和纬度对的GPS点的集合。例如,在500(a)示出的是查询输入午餐、被显示为下午12:10的时间和(33.9°,-118.2°)的位置。
TLA应用程序114构建二分图500(b),二分图500(b)可以由G(Q,U,T,L)表示,其中Q,U,T,L分别是查询、用户、时间和位置的集。TLA应用程序114将二分图500(b)的顶点分成两个不相交集,即查询502和用户504。举例来说,二分图500(b)通过用四元条目<查询,用户,时间,位置>表示每一记录来形式化移动搜索日志。举例来说,该条目可以是用户1在时间1和位置1提交查询1。此信息的条目可以被表示为<q1,u1,t1,l1>,且对应于查询-用户图中的边。该边可以位于查询-用户图中的q1和u1之间,且<t1,l1>是与此边关联的时间和位置。
在一种实现中,顶点或节点例如查询502和用户504表示二分图500(b)的基本单元,且是独立的集。边506将用户504(例如,用户1)中的顶点连接到查询50(例如,旅馆)2中的顶点。当用户1提交查询旅馆时,二分图500(b)将时间和位置与每一边关联起来。在502示出的是查询旅馆、午餐和比萨,且在504示出的是用户用户1、用户2和用户3。
TLA应用程序114使用遵循带有与之关联的时间和位置信息的边的马尔可夫转换过程。时间和位置信息可以由查询502和用户504之间的分布向量T和L来表示。时间和位置信息与也被称为用户-查询图的二分图中所示出的每一边关联。在508,二分图500(b)还示出与边506关联的位置坐标。例如,在508,该边示出时间以及经度和纬度对<20:15,(40.7°,-74.1°)>的信息。
TLA应用程序114通过计算概率基于查询-用户图上的时间和位置转换来度量随机游走过程。TLA应用程序114计算从节点到第二节点的概率,这由第一节点外出邻居决定。TLA应用程序114还计算当前时间和当前位置与连接第一节点和第二节点的边关联的时间和位置之间的距离的概率。
举例来说,二分图500(b)阐释从查询的顶点到用户的顶点的概率。转到510,从顶点午餐到顶点用户3的概率高于从顶点午餐到顶点用户2的概率。从午餐行进到用户3的距离短于从午餐行进到用户2的距离。因而,TLA应用程序114将较高的概率归因于发出时间和位置的较短的距离。
TLA应用程序114假定在时间t和位置l,查询q在等待建议。举例来说,TLA应用程序114使用二分图G(Q,U,T,L),接收输入<q,t,l>,并根据候选查询qi与查询输入q的相关性来返回以降序排名的相关查询的列表的输出(q1,q2,q3,.....qk),其中1<i<k且k>1。
图6是示出基于来自二分图的查询发出历史来计算用户之间的相似性的说明性过程206(以上以高级讨论)的流程图。TLA应用程序114接收从移动搜索日志提取的二分图600。
使用用户的查询发出历史数据,TLA应用程序114通过使用下面的等式计算两个用户
Figure BSA00000631114500111
之间的相似性602:
Sim _ user ( u 1 , u 2 ) = &Sigma; q i &Element; { Q ( u 1 ) &cap; Q ( u 2 ) } S ( u 1 , u 2 , q i ) | Q ( u 1 ) | | Q ( u 2 ) |
其中Q(u1),Q(u2)表示由每一用户u1和u2发出的查询集合,且|Q(u)|表示该集的大小。项Q(u1)∩Q(u2)表示u1和u2都已经提交给搜索引擎或提交给移动搜索服务106的公共查询的交。较大的Sim_user(u1,u2)值指示两个用户u1和u2之间存在着较多的相似性。正如所述的那样,如果这两个用户在大约相似的时间和大约相似的位置发出相似的查询,那么这两个用户应该是相似的。
TLA应用程序114基于与查询qi关联的两个用户u1和u2的发出历史、时间和位置来度量他们之间的相似性。项S(u1,u2,qi)可以被写成:
S(u1,u2,qi)=T(u1,u2,qi)·L(u1,u2,qi).
TLA应用程序114计算时间相似性T和位置相似性L604。TLA应用程序114还可以基于所关心的问题来定制T和L的函数。
举例来说,TLA应用程序114可能希望评估一天中发出查询的钟点。TLA应用程序114可以使用分布向量来表示就时间而言的用户u对查询q的发出历史606。具体地,分布向量可以包括24维向量来表示时间。这可以被表示为:
t &RightArrow; u , q = < t 1 , t 2 , . . . , t 24 > .
在一种实现中,诸如t1的元素可以是从上午12点到下午1点。向量中的元素表示由用户u在该钟点发出(例如,提交)的查询q。基于此信息,T(u1,u2,qi)可以被定义为:
T ( u 1 , u 2 , q i ) = t &RightArrow; u 1 , q i
Figure BSA00000631114500122
的相似性。
这阐释了用向量表示时间的实现。
TLA应用程序114可以使用不同的方法来计算两个向量的距离。在一种实现中,TLA应用程序114可以使用余弦相似性方法来计算T(u1,u2,qi)的距离。在又另一种实现中,TLA应用程序114可以使用参考图7讨论的距离函数方程。
图7是示出TLA应用程序114响应于查询输入基于相关性提供最佳移动查询建议的说明性过程700的流程图。过程700可以被分成两个过程:离线过程和在线过程。离线过程包括两个子部分,即构建二分图500(b)和计算用户之间的相似性206,离线过程被示出为在点线上。在线过程包括四个子部分,即接收查询输入208、标识候选查询702、计算相关性210和提供最佳查询建议704。
TLA应用程序114构建二分图500(b)以便从移动搜索日志提取提交查询信息的用户。时间和位置信息与提交查询的用户关联起来。这先前已参考图5讨论。
在206,TLA应用程序114基于来自二分图500(b)的查询发出历史来计算用户之间的相似性。这先前已参考图6讨论。
在208,TLA应用程序114接收与查询时间和计算设备102的当前位置关联的查询输入。该输入包括<q,t,l>,如参考图5所讨论。
TLA应用程序114响应于查询输入702而标识候选查询。TLA应用程序114基于假设候选查询和已经由相同的用户发出(例如,提交)的查询输入相关来标识候选查询。在一种实现中,TLA应用程序114基于候选查询与查询输入共享公共用户来标识许多候选查询。
在210,TLA应用程序114基于若干因素计算候选查询与查询输入的相关性。这些若干因素包括但不限于:(1)已经提交候选查询和查询输入的用户组的相似性,(2)用户正在发出和已经发出查询输入和候选查询的时间和位置之间的距离,以及(3)当前时间和计算设备102的当前位置。举例来说,时间之间的距离可以被描述为查询输入的正在提交的时间(例如,发送查询输入的当前时间)和已经提交的时间(例如,用户先前发出查询输入的时间)的距离。对于候选查询中的每一个的正在提交时间(例如,发送候选查询的当前时间)和已经提交的时间(例如,用户先前发出候选查询的时间),也计算此时间之间的距离。位置之间的距离可以被描述为查询输入的和候选查询中的每一个的正在提交的位置(例如,发送查询的计算设备的当前位置)和已经提交的位置(例如,当查询被发出时计算设备的位置)之间的距离。
转到210,计算相关性的输入包括查询输入208,以及查询输入被提交的时间和计算设备706的当前位置,此时间和位置被示出在点盒中,以指示集成了这些因素。到210的其他输入包括标识候选查询702、查询来自二分图的被示出为708的查询发出历史和来自206的用户组(其被示出为710)的相似性。
下列等式计算在某一时间和某一位置的候选查询与查询输入的相关性:
Sim _ query ( q , q &prime; , t , l )
= &Sigma; u i &Element; U q &Sigma; u j &Element; U q &prime; ( P ( q , u i , t , l ) &CenterDot; P ( q &prime; , u j , t , l ) &CenterDot; Sim _ user ( u i , u j ) ) | U ( q ) &cup; U ( q &prime; ) |
其中U(q),U(q′)分别表示曾经提交查询输入和候选查询的用户集。项|U(q)∪U(q′)|表示q的用户组和q’的用户组的并的大小。
接近性(P)是遵循关于正在提交的时间和位置(t,l)的边(a,b)的随机网虫(random surfer)的转换概率。例如,P(q,u,t,l)可以表示用户u关于他或她已经提交查询输入的时间和位置和具体的时间和位置对t和l之间的距离的权重。如果用户u经常在接近t的时间和接近l的位置提交查询输入,则P(q,u,t,l)的值可以是相对大的数字。下列等式可以用来计算P:
Figure BSA00000631114500133
Figure BSA00000631114500134
Figure BSA00000631114500135
其中ti和li表示用户u先前发出查询输入q的时间和位置。Dis_time(t,ti)和Dis_location(l,li)分别度量两个时间之间的距离和度量两个位置之间的距离。正如所述的那样,时间是查询输入的当前时间t(例如,正在提交的时间)和查询输入的已经提交的时间ti(例如,已经发出的时间)。位置是用于提交查询输入的计算设备的当前的正在提交的位置l和用于先前提交查询输入的计算设备的已经提交的位置1i(例如,已经发出的位置)。较大距离值指示这两个时间或这两个位置较为接近。
TLA应用程序114还为候选查询q’计算P(q′,uj,t,l)。如上所述,TLA应用程序114还以相似的方式为查询输入度量候选查询的两个时间和两个位置之间的距离。
如先前所述,TLA应用程序114可以基于所关心的问题来定制T和L函数。下列等式可以用于计算两个时间(t1,t2)之间的距离:
Figure BSA00000631114500141
Figure BSA00000631114500142
接着,过程700响应于查询输入704基于相关性来提供最佳的k个查询建议。TLA应用程序114标识或选择最佳候选查询并根据它们相对于查询输入<q,t,l>的相关性对其进行排名。因而,TLA应用程序114将排名最高的候选查询标识为以降序的最相关的查询。输出是基于查询输入和候选查询之间的相关性的降序排名的相关查询<q1,q2,q3,.....q,>的列表。
图8示出示例二分图800以阐释根据查询的用户计算查询之间的相关性。TLA应用程序114假设:如果存在尽可能多的公共用户和尽可能少的非公共用户,那么查询是高度相关的。
在802,二分图阐释存在一个用户,即用户1,其提交两个查询,即q1和q2。二分图802阐释不存在非公共用户,但仅存在一个(很少)公共用户,因此根据用户不存在查询的相关性。
在804,二分图阐释用户1提交查询q1和q2;用户2提交查询q1和q2;以及用户3提交查询q1和q2。二分图802阐释存在尽可能多的公共用户且不存在非公共用户。
在806,二分图806阐释用户1提交查询q1;用户2提交查询q1和q2;用户3提交查询q1和q2;用户4提交查询q1和q2;以及用户5提交查询q2。二分图806阐释存在公共用户,但没有可能存在的公共用户那么多,且存在比可能存在的更多的非公共用户,即用户1和用户5。
基于“如果存在尽可能多的公共用户和尽可能少的非公共用户,那么查询是高度相关的”这一假设,二分图804基于用户组的致密性来阐释高度相关的查询。
示例服务器
图9是示出可与图1的环境一起使用的示例服务器的框图。服务器112可以被配置成能够提供服务的任何合适的系统,这些服务包括但不限于实现移动搜索服务106或用于在线服务的TLA应用程序114,例如提供将时间和位置信息整合到建议中的移动查询建议。在一个示例配置中,服务器112包含至少一个处理器900、存储器902和通信连接904。通信连接904可以包括对广域网(WAN)模块、局域网模块(例如,WiFi)、个域网模块(例如,蓝牙)和/或允许服务器112在网络104上进行通信的任何其他合适的通信模块的访问。
更详细地转到存储器902的内容,存储器902可以存储操作系统系统906、TLA应用程序114、二分图模块908、相似性模块910、相关性模块912和用于实现使用TLA应用程序114的应用程序和/或服务的全部或部分的一个或多个应用程序914。
二分图模块908基于查询和用户之间的历史交互来构建二分图。二分图模块908构建二分图以表示用户的发出动作到查询。二分图模块908包括收集或接收移动搜索日志、从日志数据提取信息和通过使得时间和位置信息与查询关联来标识查询、用户。
相似性模块910从二分图接收用户的查询发出历史数据并使用参考图5讨论的等式来计算两个用户的相似性。相似性模块910基于发出历史数据、与查询关联的时间和位置信息来度量用户的相似性。此外,相似性模块910计算时间相似性和位置相似性。
相关性模块912基于若干因素来计算查询输入和候选查询之间的相关性。相关性模块912基于由许多公共用户在大约相似的时间和大约相似的位置发出的查询两者来确定查询输入和候选查询是否相关。相关性模块912基于查询的发出历史和用户组来度量查询之间的相关性。
一个或多个其他应用程序914或模块可以包括电子邮件应用程序、在线服务、日历应用程序、导航模块、游戏等等。
服务器112可以包括存储移动搜索日志、二分图等等的集合的内容存储916。替换地,此信息可以被存储在数据库118上。
服务器112还可以包括另外的可移动存储918和/或不可移动存储920。在此描述的任何存储器可以包括以用于存储信息例如计算机可读指令、数据结构、应用程序、程序模块、电子邮件和/或其他内容的任何方法或技术实现的易失性存储器(例如RAM)、非易失性存储器、可移动存储器和/或不可移动存储器。而且,除了诸图中示出的存储器之外或取代诸图中示出的存储器,在此描述的任何处理器可以包括板载存储器。存储器可以包括存储介质,例如但不限于随机存取存储器(RAM)、只读存储器(ROM)、闪速存储器、光存储、磁盘存储或其他磁存储设备、或可以用于存储所期望的信息并能由相应的系统和设备访问的任何其他介质。
如上所述的服务器112可以在各种类型的系统或网络中实现。例如,服务器112可以是包括但不限于以下的部分:客户端-服务器系统、对等计算机网络、分布式网络、企业体系结构、局域网、广域网、虚拟专用网、存储域网等等。
在此描述的各种指令、方法、技术、应用程序和模块可以被实现为可由一个或多个计算机、服务器或电信设备执行的计算机可执行指令。一般地,程序模块包括用于执行特定的任务或实现特定的抽象数据类型的例程、程序、对象、组件、数据结构等。这些程序模块和类似物例如在虚拟机或其他准实时编译执行环境中可以作为本机代码而被执行,或者可以被下载和执行。在各种实现中,这些程序模块的功能性可以按照需要组合或分布。这些模块和技术的实现可以被存储在某种形式的计算机可读介质中或跨越某种形式的计算机可读介质而传送。
结论
尽管已经用对结构特征和/或方法论动作来说专用的语言描述了本主题,但应理解,在所附权利要求中界定的本主题不必限于所描述的这些具体特征或动作。相反,具体特征和动作是作为实现权利要求的示例性形式而公开的。

Claims (10)

1.一种至少部分地由处理器(900)实现的方法,所述方法包括:
通过从移动搜索日志(500(a))中提取查询(502)并且标识发送所述查询(502、600)的用户(504)、所述用户(504)发送所述查询(502)的时间以及所述用户(504)发送所述查询(502)的位置,构造二分图(204、500(b));
至少部分地基于查询(502)、所述用户(504)提交所述查询(502)的时间以及所述用户(504)提交所述查询(502)的位置之间的相似性来从所述二分图中计算所述用户(504)之间的相似性(206、602);
从特定用户(108)的移动计算设备(102)接收与所述计算设备的当前时间和当前位置相关联的查询输入(208);以及
至少部分地响应于接收到所述查询输入(208):
从所述二分图(500(b))、600)中标识由先前已经提交所述查询输入(208)的用户(504)先前提交的一个或多个查询(502),所述一个或多个其他查询(502)包括候选查询(702);以及
至少部分地基于以下各项来计算所述候选查询中的每一个与所接收到的查询输入(210)的相关性:(1)提交所述候选查询的相应用户与所述特定用户之间的计算出的相似性(206、602),(2)与所接收到的查询输入相关联的当前时间同提交所述候选查询的时间之间的差异(208、604)以及(3)与所接收到的查询输入相关联的当前位置同提交所述候选查询的位置之间的差异(208、604)。
2.如权利要求1所述的方法,其特征在于,所述计算所述用户的相似性包括:
使用分布向量来表示第一用户和第二用户提交所述查询的时间;
基于作为用于标识一天中的钟点的计数的24维向量来表示所述第一用户和所述第二用户提交所述查询的时间;以及
应用余弦相似性函数来计算表示所述第一用户和所述第二用户提交所述查询的时间的分布向量的距离以标识所述分布向量之间的小时数。
3.如权利要求1所述的方法,其特征在于,还包括:
至少部分地基于所述候选查询中的每一个与所接收到的查询输入的所计算出的相关性来对所述候选查询进行排名;以及
至少部分地基于所述排名来建议所述候选查询的至少一部分。
4.如权利要求1所述的方法,其特征在于,还包括:
至少部分地基于所述候选查询中的每一个与所接收到的查询输入的所计算出的相关性来对所述候选查询进行排名;以及
至少部分地基于以下各项来推荐所述候选查询的至少一部分:所述候选查询与所接收到的查询输入具有许多公共用户,两者都几乎同时提交所接收到的查询输入,并且两者都在移动计算设备的几乎相同位置提交所接收到的查询输入。
5.如权利要求1所述的方法,其特征在于,还包括以至少部分地基于所述候选查询中的每一个与所述查询输入的所计算出的相关性的降序提供所述候选查询中的一个或多个作为查询建议。
6.如权利要求1所述的方法,其特征在于,所述计算所述相关性还包括:
至少部分地基于度量(1)所述用户先前提交所接收到的查询输入的时间和位置与(2)所述当前时间和所述当前位置之间的距离来计算先前提交所接收到的查询输入的用户的权重。
7.一种系统,包括:
存储器(902);
处理器(900),其操作地耦合至存储器(902);
二分图模块(908),其被存储在所述存储器(902)中并且可以在所述处理器(900)上执行,以便从移动搜索日志(500(a))中构造二分图(500(b))以从移动搜索日志(500(a))中标识查询(502)并且为所述查询(502)中的每一个标识发送查询(502)的用户(504)、所述用户(504)发送所述查询(502)的时间以及所述用户(504)发送所述查询(502)的位置;以及
相似性模块(910),其被存储在所述存储器(902)中并且可以在所述处理器(900)上执行,以便至少部分地基于以下各项之间的相似性来从所述二分图(500(b))中计算所述用户(504)之间的相似性(206、602):(1)所述查询(502),(2)所述用户(504)提交所述查询(502)的时间以及(3)所述用户(504)提交所述查询(502)的位置。
8.如权利要求7所述的系统,其特征在于,还包括:
时间-位置知晓应用模块,其被存储在所述存储器中并且可以在所述处理器上执行,以便从特定用户的移动计算设备接收与所述移动计算设备的当前时间和当前位置相关联的查询输入;以及
相关性模块,其被存储在所述存储器中并且可以在所述处理器上执行,以便至少部分地基于以下各项来计算多个候选查询中的每一个与所述查询输入的相关性:所述用户之间的计算出的相似性、计算与所接收到的查询输入相关联的当前时间与提交所述候选查询的时间之间的差异以及计算与所接收到的查询输入相关联的当前位置与提交所述候选查询的位置之间的差异。
9.如权利要求7所述的系统,其特征在于,所述二分图模块还可以在所述处理器上执行以便通过以下操作来构造所述二分图:将每一个用户表示为顶点,将所述用户发送的所述查询表示为另一顶点以及将所述用户发送所述查询的时间和所述用户发送所述查询的位置表示为边,所述边表示提交所述查询时来自所述用户的发出动作。
10.如权利要求7所述的系统,其特征在于,还包括:
时间-位置知晓应用模块,其被存储在所述存储器中并且可以在所述处理器上执行,以便从特定用户的移动计算设备接收与所述移动计算设备的当前时间和当前位置相关联的查询输入;
并且其中所述二分图模块还可以在所述处理器上执行以便:
通过将所述用户中的每一个以及所述用户发送的查询表示为两个节点并且通过将所述用户发送所述查询的时间以及所述用户发送所述查询的位置表示为所述二分图的边,来构造所述二分图;以及
计算所述当前时间和所述当前位置与对于所述两个节点之间的边的时间和位置之间的差异。
CN201110404728.7A 2010-11-29 2011-11-28 知晓时间-位置的移动查询建议 Active CN102521335B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/955,758 2010-11-29
US12/955,758 US8489625B2 (en) 2010-11-29 2010-11-29 Mobile query suggestions with time-location awareness

Publications (2)

Publication Number Publication Date
CN102521335A true CN102521335A (zh) 2012-06-27
CN102521335B CN102521335B (zh) 2016-12-14

Family

ID=

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014190739A1 (en) * 2013-05-31 2014-12-04 Tencent Technology (Shenzhen) Company Limited Method, apparatus and terminal device for browser navigation
CN104598583A (zh) * 2015-01-14 2015-05-06 百度在线网络技术(北京)有限公司 查询语句推荐列表的生成方法和装置
CN106464706A (zh) * 2014-04-18 2017-02-22 意大利电信股份公司 用于通过可从电信网络获得的数据识别显著地点的方法和系统
CN106448138A (zh) * 2016-11-09 2017-02-22 中国科学技术大学苏州研究院 基于主动分配型的出租车服务系统的最优多车调度方法
CN110574021A (zh) * 2017-04-29 2019-12-13 谷歌有限责任公司 使用经过训练的生成模型生成查询变体
CN112804647A (zh) * 2021-01-05 2021-05-14 北京红山信息科技研究院有限公司 基于通信的目标用户追踪方法、系统、服务器和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020009978A1 (en) * 2000-07-18 2002-01-24 Semyon Dukach Units for displaying information on vehicles
US20040013400A1 (en) * 2000-08-08 2004-01-22 Yoshiharu Chikazawa Portable video recorder system
US20080242279A1 (en) * 2005-09-14 2008-10-02 Jorey Ramer Behavior-based mobile content placement on a mobile communication facility

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020009978A1 (en) * 2000-07-18 2002-01-24 Semyon Dukach Units for displaying information on vehicles
US20040013400A1 (en) * 2000-08-08 2004-01-22 Yoshiharu Chikazawa Portable video recorder system
US20080242279A1 (en) * 2005-09-14 2008-10-02 Jorey Ramer Behavior-based mobile content placement on a mobile communication facility

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014190739A1 (en) * 2013-05-31 2014-12-04 Tencent Technology (Shenzhen) Company Limited Method, apparatus and terminal device for browser navigation
CN104216898A (zh) * 2013-05-31 2014-12-17 腾讯科技(深圳)有限公司 一种浏览器导航方法、装置及终端设备
CN106464706A (zh) * 2014-04-18 2017-02-22 意大利电信股份公司 用于通过可从电信网络获得的数据识别显著地点的方法和系统
CN106464706B (zh) * 2014-04-18 2019-08-20 意大利电信股份公司 用于通过可从电信网络获得的数据识别显著地点的方法和系统
CN104598583A (zh) * 2015-01-14 2015-05-06 百度在线网络技术(北京)有限公司 查询语句推荐列表的生成方法和装置
CN104598583B (zh) * 2015-01-14 2018-01-09 百度在线网络技术(北京)有限公司 查询语句推荐列表的生成方法和装置
CN106448138A (zh) * 2016-11-09 2017-02-22 中国科学技术大学苏州研究院 基于主动分配型的出租车服务系统的最优多车调度方法
CN106448138B (zh) * 2016-11-09 2019-01-25 中国科学技术大学苏州研究院 基于主动分配型的出租车服务系统的最优多车调度方法
CN110574021A (zh) * 2017-04-29 2019-12-13 谷歌有限责任公司 使用经过训练的生成模型生成查询变体
US11663201B2 (en) 2017-04-29 2023-05-30 Google Llc Generating query variants using a trained generative model
CN110574021B (zh) * 2017-04-29 2023-10-13 谷歌有限责任公司 使用经过训练的生成模型生成查询变体
CN112804647A (zh) * 2021-01-05 2021-05-14 北京红山信息科技研究院有限公司 基于通信的目标用户追踪方法、系统、服务器和存储介质

Also Published As

Publication number Publication date
US20120136855A1 (en) 2012-05-31
US8489625B2 (en) 2013-07-16

Similar Documents

Publication Publication Date Title
US8489625B2 (en) Mobile query suggestions with time-location awareness
CN110929162B (zh) 基于兴趣点的推荐方法、装置、计算机设备和存储介质
Bao et al. Recommendations in location-based social networks: a survey
US11734717B2 (en) Dynamic predictive similarity grouping based on vectorization of merchant data
Shankar et al. Crowds replace experts: Building better location-based services using mobile social network interactions
JP5602864B2 (ja) 位置ベースのサービスミドルウェア
US8612134B2 (en) Mining correlation between locations using location history
JP5410462B2 (ja) 行動及び属性推定装置及び方法及びプログラム
Berlingerio et al. The GRAAL of carpooling: GReen And sociAL optimization from crowd-sourced data
CN106960044B (zh) 一种基于张量分解及加权hits的时间感知个性化poi推荐方法
CN103995859B (zh) 一种应用于lbsn网络的基于地理标签的热点区域事件探测系统
CN105678412A (zh) 面向多人乘车的路线规划方法和装置
JP4950508B2 (ja) 施設情報管理システム、施設情報管理装置、施設情報管理方法および施設情報管理プログラム
Sang et al. Activity sensor: Check-in usage mining for local recommendation
Gao et al. Mining human mobility in location-based social networks
Al-Ghobari et al. Location-Aware Personalized Traveler Recommender System (LAPTA) Using Collaborative Filtering KNN.
CN106233288A (zh) 重新评级位置细化和多样性的搜索结果
CN113505311A (zh) 一种可根据“潜在语义空间”的旅游景点交互推荐方法
Tang et al. Discovering travel community for POI recommendation on location-based social networks
CN110704754B (zh) 一种由用户终端执行的推送模型优化方法和装置
Li et al. A location-aware recommender system for Tourism mobile commerce
Zou et al. An innovative GPS trajectory data based model for geographic recommendation service
CN106776993B (zh) 一种基于时序约束活动意向的路径推荐方法及系统
JP2007164579A (ja) スケジュールプラン生成装置、スケジュールプラン生成方法およびスケジュールプラン生成プログラム
Joshi et al. Tourism footfall forecasting and recommendation system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150729

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150729

Address after: Washington State

Applicant after: Micro soft technique license Co., Ltd

Address before: Washington State

Applicant before: Microsoft Corp.

C14 Grant of patent or utility model
GR01 Patent grant