CN107851114A - 自动信息检索 - Google Patents

自动信息检索 Download PDF

Info

Publication number
CN107851114A
CN107851114A CN201680040969.9A CN201680040969A CN107851114A CN 107851114 A CN107851114 A CN 107851114A CN 201680040969 A CN201680040969 A CN 201680040969A CN 107851114 A CN107851114 A CN 107851114A
Authority
CN
China
Prior art keywords
web resource
deep linking
web
fraction
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201680040969.9A
Other languages
English (en)
Other versions
CN107851114B (zh
Inventor
李东河
廉宰玄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN107851114A publication Critical patent/CN107851114A/zh
Application granted granted Critical
Publication of CN107851114B publication Critical patent/CN107851114B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24575Query processing with adaptation to user needs using context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

用于自动信息检索的方法、系统、和装置,包括编码在计算机存储介质上的计算机程序,包括:接收相应web资源集合的相关性分数,每个相关性分数指示web资源与其所对应的搜索查询的相关性;针对每个web资源,获取多个相似度分数,所述web资源的每个相似度分数表示在所述web资源与指向本地应用的相应深度链接所引用的相应内容之间的相似度;基于所述web资源的所述相应相关性分数以及在所述web资源与所述深度链接所引用的所述内容之间的相应相似度分数,生成所述深度链接所引用的所述内容的相应质量分数;选择引用了具有满足阈值质量分数的相应质量分数的内容的深度链接;以及提供具有多个web搜索结果的所选择的深度链接,所述多个web搜索结果分别引用对应的web资源。

Description

自动信息检索
背景技术
互联网提供对各种信息的访问。例如,特定主题或者特定新闻报道的数字图像文件、视频和/或音频文件、以及网页资源可通过互联网访问。相对于网页资源,设计这些资源中的大多数资源是为了促进执行特定功能(诸如,银行业务、预定酒店预订、购物等)或者提供结构化信息,诸如,在线百科全书、电影数据库等。搜索引擎爬取并且索引这些资源以促进搜索资源。
此外,随着平板计算机和智能电话的出现,目前正在大量地提供促进通过使用网页资源促进的相同功能的执行的本地应用。另外,不具备带有相似内容(诸如,游戏)的对应网站的本地应用在平板计算机和智能电话上也极为常见。因此,搜索引擎现在还促进搜索这些本地应用。
搜索引擎收集针对本地应用的信息的一个过程是通过访问本地应用的“深度链接”。深度链接是指定本地应用的特定环境实例的指令,并且可以配置为在用户设备处被选择时使本地应用将所指定的本地应用的环境实例实例化。本地应用生成用于在用户设备上的本地应用内进行显示的环境实例。例如,深度链接可以是指定特定本地应用的URI、本地应用要访问的资源内容、以及应该在通过使用该深度链接来启动本地应用时被实例化的特定用户界面。
搜索引擎现在还促进搜索这些本地应用。因此,用户的信息需求可以由搜索引擎来满足,该搜索引擎提供识别描述了本地应用的特定网页资源中的一个(或者两者)的搜索结果和针对本地应用本身的搜索结果。
发明内容
一般而言,本说明书描述了一种用于自动信息检索的系统和方法。该系统和方法包括:对在本地应用内的内容进行评分,从而使得与本地应用相关的一个或者多个搜索结果能够包括在响应于查询而提供的搜索结果中,即使本地应用没有对应网页。因此,该系统和方法提供改进的搜索和检索。
一般而言,本说明书中描述的主题的一个创新方面可以体现在包括以下动作的方法中:接收相应web资源集合的相关性分数,每个相关性分数指示web资源与其所对应的搜索查询的相关性;针对多个web资源中的每个web资源,获取多个相似度分数,web资源的每个相似度分数表示在web资源与指向本地应用的相应深度链接所引用的相应内容之间的相似度;基于web资源的相应相关性分数以及在web资源与深度链接所引用的内容之间的相应相似度分数,针对每个深度链接,生成深度链接所引用的内容的相应质量分数;选择引用了具有满足阈值质量分数的相应质量分数的内容的深度链接;以及响应于搜索查询向用户设备提供具有多个web搜索结果的所选择的深度链接,所述多个web搜索结果分别引用对应的web资源。
实施方式可以包括以下特征中的一个或者多个。在获取多个相似度分数之前:针对每个web资源,通过内容和web资源生成web资源的多个相似度分数。生成多个相似度分数基于以下中的一个或者多个:针对多个相似度分数的n元语法Jaccard相似度、最小散列、或者局部敏感散列。针对每个深度链接生成深度链接所引用的内容的相应质量分数包括:针对每个web资源,计算web资源的相应相关性分数和在web资源与深度链接所引用的内容之间的相应相似度分数的相应乘积;以及将每个乘积相加以生成相应质量分数。指向相应本地应用的每个深度链接指定相应本地应用的特定环境实例,并且在用户设备处被选择时使相应本地应用对显示有深度链接中引用的内容的相应本地应用的实例进行实例化。相应web资源的每个相关性分数基于通过搜索引擎进行排名的web资源列表中的相应web资源的排名。选择引用了具有满足阈值质量分数的相应质量分数的内容的深度链接包括:选择引用了具有满足阈值质量分数的质量分数的内容的多达最大数量的深度链接。向用户设备提供具有多个web搜索结果的多个深度链接包括:向用户设备提供web搜索结果和深度链接的排名列表。向用户设备提供web搜索结果和深度链接的排名列表包括:针对每个深度链接,将深度链接的相应质量分数归一化为web搜索结果的相应相关性分数,以生成深度链接的归一化相关性分数;基于相关性分数和归一化相关性分数对web搜索结果和深度链接进行排名,以生成web搜索结果和深度链接的排名列表;以及向用户设备提供web搜索结果和深度链接的排名列表。相应深度链接所引用的相应内容不是web资源。
可以实施在本说明书中描述的主题的具体实施例以实现以下优点中的一个或者多个。某些本地应用没有本地应用的对应网页。尽管没有将现有的对应网页的相关性分数用作基本度量,系统也可以对不具有对应网页和/或内容页的这些本地应用进行排名。
包括指向本地应用(具有或者不具有对应网页(例如,移动应用))内的特定位置的链接的搜索结果可以与其它搜索结果(例如,网页的搜索结果)一起进行排名,使得更相关的资源(应用或者网页)排名较高。包含链接至应用内的位置的搜索结果提供了可以更好地满足用户的信息需求的附加搜索结果选项。
在附图和下面的说明中阐述了在本说明书的主题的一个或者多个实施例的细节。本主题的其它特征、方面、和优点将通过描述、附图、以及权利要求书而变得显而易见。
附图说明
图1是触发本地应用的搜索和排名发生的示例环境的框图。
图2A是用于生成在本地应用内的内容与web资源之间的相似度分数的示例方法的流程图。
图2B是用于对本地应用内的内容进行评分的示例方法的流程图。
图3是对本地应用内的内容进行评分的图示。
图4是提供有web搜索结果的本地应用搜索结果的图示。
在各种附图中的类似的附图标记和名称指示类似的元件。
具体实施方式
系统对没有对应网页的本地应用内的内容进行评分。即,本地应用可以显示不能通过web浏览器在web资源(例如,网页)处访问的内容。可以基于与内容相似的web资源对本地应用内的内容进行评分,下文将对此进行进一步地描述。
如本文所使用的,本地应用生成用于在本地应用的环境内的用户设备上进行显示的环境实例,并且独立于用户设备上的浏览器应用操作。本地应用是专门用于在特定用户设备操作系统和机器固件上运行的应用。因此,本地应用与基于浏览器的应用和浏览器呈现的资源不同。每当将可从web服务器下载的元件或者指令实例化或者呈现这些元件或者指令时,后者需要所有或者至少一些元件或者指令。此外,基于浏览器的应用和浏览器呈现的资源可以通过浏览器内的所有具有网络能力的移动设备(并且因此,而不是特定于操作系统)来处理。
如果触发搜索以包括本地应用搜索结果以及web搜索结果,则对本地应用索引搜索本地应用,并且对本地应用进行评分。可以使用各种评分信号,包括本地应用的索引内容、本地应用的用户评级、针对应用索引的搜索而接收到的查询的查询流行度等。一旦响应于查询而进行评分,本地应用就可以如下文陈述那样进行排名,并且可以响应于查询而将一个或者多个本地应用搜索结果提供给用户设备。
是否提供本地应用搜索查询,并且如果提供本地应用搜索查询本地应用搜索结果相对于其它搜索结果的位置,基于一个或者多个过滤标准和排名标准来确定。过滤标准和排名标准可以包括相对于其它资源描述本地应用的对应资源的排名、本地应用的分数、以及其它因素。
下文更详细地描述了这些特征和其它特征。
图1是触发本地应用的搜索和排名发生的示例环境100的框图。计算网络102(诸如,互联网)连接资源发布者网站104、应用发布者106、用户设备108、以及搜索引擎120。
资源发布者网站104包括与域相关联的并且由一个或者多个位置中的一个或者多个服务器托管的一个或者多个web资源105。通常,资源发布者网站是以可以包含文本、图像、多媒体内容、和编程元素的超文本标记语言(HTML)格式化的网页类集。每个网站104由内容发布者维护,该内容发布者是控制、管理、和/或拥有网站104的实体。
网页资源是可以由发布者网站104通过网络102提供并且具有资源地址(例如,统一资源定位符(URL))的任何数据。web资源可以是HTML页面、图像文件、视频文件、音频文件、和馈源,仅举几例。资源可以包括嵌入式信息,例如,元信息和超链接、和/或嵌入式指令,例如,客户端脚本。更普遍地,“资源”是可通过网络识别的任何事物,并且还可以包括本地应用。
应用发布者网站106还可以包括一个或者多个web资源105,并且还提供本地应用107。如上所述,本地应用107是专门用于在特定用户设备操作系统和机器固件上运行的应用。本地应用107可以包括用于在不同的平台上运行的多个版本。例如,与电影数据库网站对应的本地应用可以包括在第一类型的智能电话上运行的第一本地应用、在第二类型的智能电话上运行的第二本地应用、在第一类型的平板上运行的第三本地应用等。
如本说明书中所使用的,“环境实例”是本地应用内的显示环境,并且在该显示环境内显示内容,诸如,文本、图像等。环境实例特定于特定本地应用,并且本地应用特定于用户设备108的特定操作系统。环境实例与渲染的web资源的不同之处在于环境实例在本地应用内生成并且特定于本地应用,而web资源可以在网页资源可兼容的任何浏览器中被呈现,并且独立于用户设备的操作系统。
用户设备108是处于用户的控制下的电子设备。用户设备108通常能够通过网络102请求和接收网页资源104和本地应用107。示例用户设备108包括个人计算机、移动通信设备、以及平板计算机。
为了搜索web资源105和本地应用107,搜索引擎120访问web索引116和应用索引114。例如,web索引116是已经通过爬取发布者网站104而构建的web资源105的索引。应用索引114是本地应用107的应用页的索引,并且使用应用数据提取器和处理器110和索引器112而构建。尽管将web索引116和应用索引114示出为单独的索引,但是web索引116和应用索引114可以组合成单个索引。
用户设备108向搜索引擎120提交搜索查询。响应于每个查询,搜索引擎120访问web索引116和应用索引114(可选地)以分别识别与查询相关的资源和应用。通常,实施第一搜索算法的第一类型的搜索操作用于搜索索引116,并且实施第二不同的算法的第二类型的搜索操作用于搜索应用索引114。搜索引擎120实施资源计分器132过程以生成web资源的相关性分数并且实施相似度计分器136过程以生成在web资源与本地应用内的内容之间的相似度分数。本地应用内的内容不是web资源。本地应用内容计分器134过程基于相关性分数和相似度分数来生成本地应用内的内容的质量分数。下文将参照图2和图3进一步描述本地应用内容计分器134。可以使用各种适合的搜索引擎算法来实施资源计分器132、相似度计分器136、和本地应用内容计分器134。
搜索引擎120利用搜索引擎前端138(诸如,web服务器)来确定是否要搜索本地应用索引114并且将本地应用搜索结果提供给用户设备。搜索引擎前端138布置搜索结果并且向接收到查询的用户设备108提供该搜索结果。
web资源搜索结果是由搜索引擎120生成的数据,该搜索引擎120识别web资源并且提供满足特定搜索查询的信息。资源的web资源搜索结果可以包括网页标题、从资源中提取的文本的片段、以及资源的资源定位符,例如,网页的URL。本地应用搜索结果指定本地应用并且是响应于应用索引114的搜索而生成的。本地应用搜索结果可以包括指定本地应用的特定环境实例的“深度链接”,并且该深度链接配置为(在被选择时)使本地应用将指定的环境实例实例化。例如,深度链接可以指定游戏环境的选择菜单、或者音乐应用的特定歌曲选择、或者烹饪应用的特定食谱等。例如,本地应用搜索结果的选择可以使本地应用启动(如果安装在用户设备108上)并且以屏幕截图的形式生成在应用搜索结果中引用的环境实例。可替代地,本地应用搜索结果可以包括“购买”(或者“安装”)命令,该命令在被选择时会造成用户设备上的本地应用的购买(或者免费下载)和安装。
提供本地应用107的发布者106还向搜索引擎120提供深度链接109。例如,应用发布者可以以统一资源标识符(URI)(或者特定于发布者所发布的本地应用的其它指令类型)的形式提供深度链接109的列表。这些深度链接是发布者106期望在应用索引114中爬取并且索引的深度链接。
对于许多本地应用107,还存在描述本地应用107的web资源111。这种资源111的一个示例是在线本地应用商店中的产品页。产品页可以使用web浏览器来浏览并且可以在web索引116中被索引。web资源111可以包括本地应用的屏幕截图、用户评级的描述等。通常,web资源111是特定于本地应用的网页,并且用于促进本地应用的购买和/或下载。
在特定情况下,根据搜索查询和对应的基于web的搜索结果,搜索引擎120可以将本地应用搜索结果包括在网页搜索结果集合中。例如,本地应用搜索结果可以插入相对于本地应用的产品网页搜索结果的位置处,或者可替代地,可以完全替换产品网页搜索结果。下面参照图4对此进行进一步描述。
图2A是用于生成在本地应用内的内容与web资源之间的相似度分数的示例方法的流程图200。为了方便起见,将相对于具有执行软件以实施方法200的一个或者多个计算设备的系统(例如,图1的搜索引擎120)对方法200进行描述。
系统收集web资源(步骤202)。可以从web索引(例如,图1的web索引116)中收集web资源。
系统获取本地应用内的内容(步骤204)。在一些实施方式中,内容是来自应用索引内被索引的本地应用的应用页的内容,例如,来自图1的应用索引114的内容。
系统生成在内容与web资源之间的相似度分数(步骤206)。系统可以通过使用任何合适的方法来生成在web资源与相应内容之间的相似度分数。例如,系统可以基于n元语法Jaccard相似度、最小散列、或者局部敏感散列来生成相似度分数。
在一些实施方式中,系统以下形式生成输出:
[wd_1,[(nac_1,s_11),(nac_2,s_12),(nac_3,s_13)…],
wd_2,[(nac_1,s_21),(nac_2,s_22),(nac_3,s_23)…],…]
其中,wd_i(例如,wd_1或者wd_2)是web文档i,nac_j(例如,nac_1)是本地应用内容j,s_ij(例如,s_11)是在web文档i与本地应用内容j之间的相似度分数。而且,s_ij=similarity(wd_i,nac_j)=similarity(nac_j,wd_i);similarity是计算相似度分数s_ij的函数。
系统使用输出来生成本地应用内的内容的质量分数,下文将参照图2A对此进行进一步描述。
图2B是用于对本地应用内的内容进行评分的示例方法的流程图208。为了方便起见,将相对于具有执行软件以实施方法208的一个或者多个计算设备的系统(例如,图1的搜索引擎120)对方法208进行描述。
系统接收web资源集合的相关性分数(步骤210)。每个web资源具有指示web资源与搜索资源的相关性的相关性分数。
在一些实施方式中,相关性分数基于由搜索引擎进行排名的web资源列表中的web资源的排名。例如,可以使用下面的公式1来计算相关性分数。
其中,s是响应于搜索查询的搜索结果列表中的若干搜索结果,并且r是搜索结果列表中的web资源的排名。
系统针对web资源集合中的每个web资源获取web资源的相似度分数集合(步骤212)。如上文参照图2A描述的,可以从输出向量中获取相似度分数。web资源的每个相似度分数可以表示在web资源与不具有对应网页或者内容页的本地应用内的相应内容之间的相似度。
指向本地应用的相应深度链接可以引用相应内容。相应深度链接指定本地应用的特定环境实例,并且在用户设备处被选择时使本地应用对显示有深度链接中引用的相应内容的相应本地应用的实例进行实例化。
系统针对每个深度链接生成深度链接所引用的内容的相应质量分数(步骤214)。可以通过在内容与web资源之间的相似度分数以及web资源的相关性分数来生成深度链接所引用的内容的质量分数。下面将参照图3对此进行进一步描述。
系统选择引用了具有满足阈值质量分数的相应质量分数的内容的深度链接(步骤216)。在一些实施方式中,系统选择具有满足阈值质量分数的质量分数的多达最大数量的深度链接。最大数量可以由系统的管理员确定。
系统向用户设备提供所选择的深度链接以及web搜索结果,该web搜索结果分别引用对应的web资源(步骤S218)。系统可以响应于搜索查询而向用户设备提供所选择的深度链接和web搜索结果。在一种实施方式中,系统可以向用户设备提供web搜索结果和深度链接的排名列表。
在提供排名列表的一些实施方式中,系统针对每个深度链接将深度链接的相应质量分数归一化为web搜索结果的相应相关性分数,以生成深度链接的归一化相关性分数。例如,如果特定相关性分数可以是数字范围内的数字,则系统可以(例如,利用缩放系数)将深度链接的质量分数缩放为相关性分数的数字范围内的比例数。
在将每个深度链接的相应质量分数归一化之后,系统可以基于相关性分数和归一化相关性分数对web搜索结果和深度链接进行排名,以生成统一的web搜索结果和深度链接的排名列表。然后,系统可以向用户设备提供web搜索结果和深度链接的排名列表,下面将参照图4对此进行进一步描述。
在一些实施方式中,响应于来自用户的搜索查询而执行步骤210至218。在一些其它实施方式中,将可以执行生成相似度分数执行为后端过程的一部分。
图3是使用给定了搜索查询的搜索引擎的本地应用内容计分器对本地应用内的内容进行评分的图示300。内容可以是不具有来自web索引(例如,来自图1的web索引116)的对应网页的应用页X。本地应用内容计分器可以生成应用页X的质量分数X_quality 314。
为了生成质量分数X_quality 314,计分器可以计算web资源集合的相关性分数向量与web资源集合的相似度分数向量之间的点积。换言之,可以使用下面的公式2来计算质量分数:
其中,x是不具有对应网页的应用页,resourcek是n个web资源的集合中的第k个web资源,relevance函数返回相关性分数,以及similarity函数返回指示在第k个web资源与应用页x之间的相似度的相似度分数。
通过图示,A、B、和C都可以是web资源(例如,来自图1的web索引116)。因此,A_relevance 302是A与搜索查询的相关性分数,AX_similarity 304是指示web资源A与应用页X的相似程度的相似度分数,B_relevance 306是B与搜索查询的相关性分数,BX_similarity 308是指示web资源B与应用X的相似程度的相似度分数,C_relevance 310是C与搜索查询的相关性分数,CX_similarity 312是指示web资源C与应用X的相似程度的相似度分数,依此类推。计分器可以计算A_relevance 302和AX_similarity 304的乘积、B_relevance306和BX_similarity 308的乘积、C_relevance 310和CX_similarity 312的乘积,依此类推,并且然后将这些乘积相加以生成X_quality分数314。
计分器可以按照这种方式计算没有对应网页和/或内容页的应用索引中的每个应用页的点积,以对应用页进行评分。
图4是提供有web搜索结果的本地应用搜索结果的图示。可以在用户设备的浏览器应用处提供搜索结果。
浏览器应用显示由搜索引擎响应于搜索查询402而提供的搜索结果404至410的视图401。这些搜索结果中的一个是本地应用搜索结果(即,本地应用搜索结果408),而剩余的搜索结果是web搜索结果(即,web搜索结果404、406、410)。按照web搜索结果404、406、410、本地应用搜索结果408的递减的相关性分数的顺序来显示搜索结果404至410。
本地应用搜索结果408是深度链接,该深度链接在被选择时可以使本地应用对在用户设备上显示有在本地应用搜索结果408中引用的内容的相应本地应用的实例进行实例化。
可以利用数字电子电路系统、利用计算机软件或者固件、利用有形体现的计算机软件或者固件、利用计算机硬件(包括本说明书中所公开的结构及其结构等效物)、或者它们中的一个或者多个的组合来实施本说明书中所描述的主题和功能操作的实施例。可以将本说明书中描述的主题的实施例实施为一个或者多个计算机程序,即,编码在计算机存储介质(例如,该计算机存储介质可以是有形的非暂时性计算机存储介质)上、由数据处理装置执行或者控制该数据处理装置的操作的计算机程序指令的一个或者多个模块。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或者串行存取存储器设备、或者它们中的一个或者多个的组合。计算机程序可以包括多个文件和/或可以部署为执行一个或者多个数据处理装置。
术语“数据处理装置”囊括了用于处理数据的所有种类的装置、设备、和机器,包括:例如,可编程处理器、计算机、专用电路系统、或者多个处理器或者计算机。除了硬件之外,装置还可以包括为探讨中的计算机程序创建执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统、或者它们中的一个或者多个的组合的代码。
可以通过一个或者多个可编程计算机来进行本说明书中描述的过程和逻辑流程,该一个或者多个可编程计算机执行一个或者多个计算机程序以通过操作输入数据并且生成输出或者通过一个或者多个专用逻辑电路系统来进行功能。
虽然本说明书包含了许多具体实施细节,但是不应该将这些细节视为对任何发明或者可能被要求的内容的范围的限制,而是作为针对特定发明的特定实施例的特征的描述。在本说明书中在单独实施例的场境下描述的某些特征还可以组合地实施在单个实施例中。相反,在单个实施例的场境下描述的各种特征也可以单独地或者按照任何合适的子组合实施在多个实施例中。此外,虽然上文可能将特征描述为以某些组合来起作用并且最初甚至同样地对该特征要求保护,但是在一些情况下可以从组合中删除来自所要求的组合的一个或者多个特征,并且所要求的组合可以指向子组合或者子组合的变化。
同样,虽然在附图中按照特定顺序示出了操作,但是不应该将其理解为需要按照所述的特定顺序或者按照相继的顺序来进行这种操作,或者需要进行所有图示的操作以实现期望的结果。在某些情况下,多任务处理和并行处理可以是有利的。此外,不应该将在上述实施例中的各种系统模块和组件的分离理解为在所有实施例中需要这种分离,并且应该理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中或者封装到多个软件产品中。
已经对本主题的具体实施例进行了描述。其它实施例在以下权利要求书的范围内。例如,在权利要求书中叙述的动作可以按照不同的顺序来进行并且仍然可以实现期望的结果。作为一个示例,在附图中描绘的过程不一定需要所示的特定顺序或者相继顺序,以实现期望的结果。在某些实施方式中,多任务处理和并行处理可以是有利的。

Claims (15)

1.一种通过数据处理装置执行的方法,所述方法包括:
接收相应web资源集合的相关性分数,每个相关性分数指示web资源与其所对应的搜索查询的相关性;
针对所述web资源集合中的每个web资源,获取多个相似度分数,所述web资源的每个相似度分数表示在所述web资源与指向本地应用的相应深度链接所引用的相应内容之间的相似度;
基于所述web资源的所述相应相关性分数以及在所述web资源与所述深度链接所引用的所述内容之间的所述相应相似度分数,针对所述深度链接中的每个深度链接,生成所述深度链接所引用的所述内容的相应质量分数;
选择引用了具有满足阈值质量分数的相应质量分数的内容的深度链接;以及
响应于所述搜索查询向用户设备提供具有多个web搜索结果的所选择的深度链接,所述多个web搜索结果分别引用对应的web资源。
2.根据权利要求1所述的方法,所述方法进一步包括:在获取所述多个相似度分数之前:
针对每个web资源,通过所述内容和所述web资源生成所述web资源的所述多个相似度分数。
3.根据权利要求2所述的方法,其中,生成所述多个相似度分数基于以下中的一个或者多个:针对所述多个相似度分数的n元语法Jaccard相似度、最小散列、或者局部敏感散列。
4.根据权利要求1、2或者3所述的方法,其中,针对所述深度链接中的每个深度链接生成所述深度链接所引用的所述内容的所述相应质量分数包括:
针对每个web资源,计算所述web资源的所述相应相关性分数和在所述web资源与所述深度链接所引用的所述内容之间的所述相应相似度分数的相应乘积;以及
将每个乘积相加以生成所述相应质量分数。
5.根据前述权利要求中的任一项所述的方法,其中,指向相应本地应用的每个深度链接在所述用户设备处被选择时使所述相应本地应用对显示有所述深度链接中引用的内容的所述相应本地应用的实例进行实例化。
6.根据前述权利要求中的任一项所述的方法,其中,相应web资源的每个相关性分数基于通过搜索引擎进行排名的web资源列表中的所述相应web资源的排名。
7.根据前述权利要求中的任一项所述的方法,其中,选择引用了具有满足阈值质量分数的相应质量分数的内容的深度链接包括:选择引用了具有满足所述阈值质量分数的质量分数的内容的多达最大数量的深度链接。
8.根据前述权利要求中的任一项所述的方法,其中,向所述用户设备提供具有所述多个web搜索结果的所述多个深度链接包括:
针对每个深度链接,将所述深度链接的所述相应质量分数归一化为所述web搜索结果的所述相应相关性分数,以生成所述深度链接的归一化相关性分数;
基于所述相关性分数和所述归一化相关性分数对所述web搜索结果和深度链接进行排名,以生成web搜索结果和深度链接的排名列表;以及
向所述用户设备提供所述web搜索结果和深度链接的排名列表。
9.根据前述权利要求中的任一项所述的方法,其中,所述相应深度链接所引用的所述相应内容不是web资源。
10.一种系统,所述系统包括:
一个或者多个计算机;以及
计算机可读介质,所述计算机可读介质耦合至所述一个或者多个计算机并且具有存储在其上的指令,所述指令在由所述一个或者多个计算机执行时使所述一个或者多个计算机针对所述神经网络层中的每一个神经网络层执行操作,所述操作包括:
接收相应web资源集合的相关性分数,每个相关性分数指示web资源与其所对应的搜索查询的相关性;
针对所述web资源集合中的每个web资源,获取多个相似度分数,所述web资源的每个相似度分数表示在所述web资源与指向本地应用的相应深度链接所引用的相应内容之间的相似度;
基于所述web资源的所述相应相关性分数以及在所述web资源与所述深度链接所引用的所述内容之间的所述相应相似度分数,针对所述深度链接中的每个深度链接,生成所述深度链接所引用的所述内容的相应质量分数;
选择引用了具有满足阈值质量分数的相应质量分数的内容的深度链接;以及
响应于所述搜索查询向用户设备提供具有多个web搜索结果的所选择的深度链接,所述多个web搜索结果分别引用对应的web资源。
11.根据权利要求10所述的系统,其中,所述指令在由所述一个或者多个计算机执行时使所述一个或者多个计算机在获取所述多个相似度分数之前:
针对每个web资源,通过所述内容和所述web资源生成所述web资源的所述多个相似度分数。
12.根据权利要求10所述的系统,其中,所述指令在由所述一个或者多个计算机执行时使所述一个或者多个计算机通过以下操作针对所述深度链接中的每个深度链接生成所述深度链接所引用的所述内容的所述相应质量分数:
针对每个web资源,计算所述web资源的所述相应相关性分数和在所述web资源与所述深度链接所引用的所述内容之间的所述相应相似度分数的相应乘积;以及
将每个乘积相加以生成所述相应质量分数。
13.根据权利要求10所述的系统,其中,所述指令在由所述一个或者多个计算机执行时使所述一个或者多个计算机通过以下操作向所述用户设备提供具有所述多个web搜索结果的所述多个深度链接:
针对每个深度链接,将所述深度链接的所述相应质量分数归一化为所述web搜索结果的所述相应相关性分数,以生成所述深度链接的归一化相关性分数;
基于所述相关性分数和所述归一化相关性分数对所述web搜索结果和深度链接进行排名,以生成web搜索结果和深度链接的排名列表;以及
向所述用户设备提供所述web搜索结果和深度链接的排名列表。
14.根据权利要求10所述的系统,其中,所述相应深度链接所引用的所述相应内容不是web资源。
15.一种计算机可读介质,所述计算机可读介质具有存储在其上的指令,所述指令在由一个或者多个计算机执行时使所述一个或者多个计算机执行操作,所述操作包括如权利要求1至10中任一项中定义的方法。
CN201680040969.9A 2015-10-12 2016-10-04 用于自动信息检索的方法、系统和介质 Active CN107851114B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/880,947 US20170103129A1 (en) 2015-10-12 2015-10-12 Scoring content within native applications
US14/880,947 2015-10-12
PCT/US2016/055311 WO2017066042A1 (en) 2015-10-12 2016-10-04 Automated information retrieval

Publications (2)

Publication Number Publication Date
CN107851114A true CN107851114A (zh) 2018-03-27
CN107851114B CN107851114B (zh) 2021-04-20

Family

ID=58499580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680040969.9A Active CN107851114B (zh) 2015-10-12 2016-10-04 用于自动信息检索的方法、系统和介质

Country Status (6)

Country Link
US (1) US20170103129A1 (zh)
JP (1) JP6517437B2 (zh)
KR (1) KR102091225B1 (zh)
CN (1) CN107851114B (zh)
DE (1) DE112016002946T5 (zh)
WO (1) WO2017066042A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413763A (zh) * 2018-04-30 2019-11-05 国际商业机器公司 搜索排序器的自动选择
CN112714033A (zh) * 2019-10-25 2021-04-27 中国移动通信集团河北有限公司 视频集的特征信息确定方法及装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI129928B (en) 2019-01-29 2022-11-15 Upm Kymmene Corp Method and arrangement for feedback-based control in chemical wood processing
US11301273B2 (en) * 2020-03-11 2022-04-12 Atlassian Pty Ltd. Computer user interface for a virtual workspace having multiple application portals displaying context-related content

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102542039A (zh) * 2010-12-27 2012-07-04 微软公司 远程执行的应用的发现
US20130110815A1 (en) * 2011-10-28 2013-05-02 Microsoft Corporation Generating and presenting deep links
CN103838856A (zh) * 2014-03-17 2014-06-04 联想(北京)有限公司 一种信息处理方法及装置
US20140280234A1 (en) * 2013-03-15 2014-09-18 Google Inc. Ranking of native application content
US8954836B1 (en) * 2014-08-19 2015-02-10 Adlast, Inc. Systems and methods for directing access to products and services

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8386469B2 (en) * 2006-02-16 2013-02-26 Mobile Content Networks, Inc. Method and system for determining relevant sources, querying and merging results from multiple content sources
US20130031091A1 (en) * 2011-07-26 2013-01-31 Microsoft Corporation Action-based search results and action view pivoting
KR101894878B1 (ko) * 2011-08-16 2018-09-04 엘지전자 주식회사 디스플레이기기 및 디스플레이기기의 컨텐츠 제공 방법
US20150161127A1 (en) * 2012-02-13 2015-06-11 Google Inc. Ranking entity realizations for information retrieval
US20140040226A1 (en) * 2012-07-31 2014-02-06 Microsoft Corporation Providing application result and preview
EP2962224A4 (en) * 2013-03-01 2016-10-19 Quixey Inc GENERATING SEARCH RESULTS WITH STATUS LINKS ON APPLICATIONS
US9063984B1 (en) * 2013-03-15 2015-06-23 Google Inc. Methods, systems, and media for providing a media search engine
US9251224B2 (en) * 2014-03-04 2016-02-02 Google Inc. Triggering and ranking of native applications
US10061796B2 (en) * 2014-03-11 2018-08-28 Google Llc Native application content verification
US10268763B2 (en) * 2014-07-25 2019-04-23 Facebook, Inc. Ranking external content on online social networks
US20160055256A1 (en) * 2014-08-19 2016-02-25 Adlast, Inc. Systems and methods for directing access to products and services
US20160196579A1 (en) * 2015-01-05 2016-07-07 ProGrids, LLC Dynamic deep links based on user activity of a particular user
US10061856B2 (en) * 2015-01-29 2018-08-28 Facebook, Inc. Multimedia search using reshare text on online social networks
US9703541B2 (en) * 2015-04-28 2017-07-11 Google Inc. Entity action suggestion on a mobile device
US10755032B2 (en) * 2015-06-05 2020-08-25 Apple Inc. Indexing web pages with deep links
US10509834B2 (en) * 2015-06-05 2019-12-17 Apple Inc. Federated search results scoring
US10223460B2 (en) * 2015-08-25 2019-03-05 Google Llc Application partial deep link to a corresponding resource

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102542039A (zh) * 2010-12-27 2012-07-04 微软公司 远程执行的应用的发现
US20130110815A1 (en) * 2011-10-28 2013-05-02 Microsoft Corporation Generating and presenting deep links
US20140280234A1 (en) * 2013-03-15 2014-09-18 Google Inc. Ranking of native application content
CN103838856A (zh) * 2014-03-17 2014-06-04 联想(北京)有限公司 一种信息处理方法及装置
US8954836B1 (en) * 2014-08-19 2015-02-10 Adlast, Inc. Systems and methods for directing access to products and services

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413763A (zh) * 2018-04-30 2019-11-05 国际商业机器公司 搜索排序器的自动选择
CN112714033A (zh) * 2019-10-25 2021-04-27 中国移动通信集团河北有限公司 视频集的特征信息确定方法及装置
CN112714033B (zh) * 2019-10-25 2022-07-01 中国移动通信集团河北有限公司 视频集的特征信息确定方法及装置

Also Published As

Publication number Publication date
CN107851114B (zh) 2021-04-20
KR20180017182A (ko) 2018-02-20
JP2018527686A (ja) 2018-09-20
US20170103129A1 (en) 2017-04-13
DE112016002946T5 (de) 2018-03-15
WO2017066042A1 (en) 2017-04-20
JP6517437B2 (ja) 2019-05-22
KR102091225B1 (ko) 2020-03-19

Similar Documents

Publication Publication Date Title
US9652550B2 (en) Indexing application pages of native applications
CN106415537B (zh) 将本地应用搜索结果插入到web搜索结果中
US8352396B2 (en) Systems and methods for improving web site user experience
US7831609B1 (en) System and method for searching, formulating, distributing and monitoring usage of predefined internet search queries
KR101475126B1 (ko) 검색 결과 페이지에 인터랙티브 요소를 포함하는 시스템 및 그 방법
EP3161678B1 (en) Deep links for native applications
US8688702B1 (en) Techniques for using dynamic data sources with static search mechanisms
KR101969944B1 (ko) 다수의 네이티브 애플리케이션들로의 딥링킹
US9639627B2 (en) Method to search a task-based web interaction
US11561988B2 (en) Systems and methods for harvesting data associated with fraudulent content in a networked environment
CN106687949A (zh) 本地应用的搜索结果
US8898297B1 (en) Device attribute-customized metadata for browser users
CN107851114A (zh) 自动信息检索
JP2010257453A (ja) サーチクエリデータを用いて文書にタグ付けするシステム
KR20170132294A (ko) 웹 검색 결과들과 함께 네이티브 애플리케이션 검색 결과들 제공
EP3238105B1 (en) Application partial deep link to a corresponding resource
JP2011022724A (ja) ウェブサイト情報提供装置およびウェブサイト情報提供プログラム
JP2017117022A (ja) キーワード抽出装置、キーワード抽出方法、およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant