CN110431550B - 用于识别可视叶页面的方法和系统 - Google Patents

用于识别可视叶页面的方法和系统 Download PDF

Info

Publication number
CN110431550B
CN110431550B CN201780088306.9A CN201780088306A CN110431550B CN 110431550 B CN110431550 B CN 110431550B CN 201780088306 A CN201780088306 A CN 201780088306A CN 110431550 B CN110431550 B CN 110431550B
Authority
CN
China
Prior art keywords
page
central
pages
visual leaf
visual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780088306.9A
Other languages
English (en)
Other versions
CN110431550A (zh
Inventor
V.曼尼卡瓦萨甘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN110431550A publication Critical patent/CN110431550A/zh
Application granted granted Critical
Publication of CN110431550B publication Critical patent/CN110431550B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • G06F16/287Visualization; Browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0483Interaction with page-structured environments, e.g. book metaphor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

在一些实施方式中,一种方法包括:对于多个主机中的每一个,识别由主机托管的可视叶页面,可视叶页面中的每个是包括定义相对于网页的所有其他内容突出地显示的图像或视频的图像数据的网页,识别由主机托管的中心页面的集合,每个中心页面通过基于图像的链接链接到可视叶页面中的至少一个可视叶页面,并且对于每个中心页面,通过对于每个可视叶页面确定特征值的集合来生成表示中心页面链接到的可视叶页面的集群数据,特征值的集合中的每个特征值指示可视叶页面的预定义特征,并且从该特征值的集合生成中心特征值的集合作为中心页面的集群数据,该中心特征值的集合指示每个相应预定义特征的中心趋势。

Description

用于识别可视叶页面的方法和系统
技术领域
本文档涉及可视叶页面识别和处理。
背景技术
互联网提供了对各种资源的访问。表征任何特定页面的格式和内容对于搜索引擎处理很有用。例如,内容主要为文本的页面可能对某些类型的搜索有用,而内容主要为可视的页面可能对其他类型的搜索有用。
可能对一些搜索操作有用的特定资源是可视叶页面(visual leaf page)。叶页面是获取信息、执行动作或提供关于页面中描述主题的信息的特定集合的终端页面。当然,尽管叶页面可能具有到其他页面的链接,但在专门为实现上述目标而设计的页面的意义上,它仍然被认为是“终端”页面。可视叶页面是对表示该页面中描述的主题的一个或多个显著图像具有主导意图的叶页面。因此,对页面中的图像的移除将导致其信息上显著减少。例如,当用户请求来自针对特定类型的活动(诸如购物或寻找食谱)的搜索引擎的图像搜索结果时,可视叶页面可以提供与用户正在搜索的内容高度相关的内容,并且这些可视叶页面可以提供比不是可视叶页面的页面呈现的结果更相关的结果。
发明内容
本文档涉及识别可视叶页面。
一般而言,本说明书中描述的主题的一个创新方面可以体现在一种方法中,该方法包括:对于多个主机中的每一个,由一个或多个计算机识别由主机托管的可视叶页面,其中每个可视叶页面是包括定义相对于网页的所有其他内容突出地显示的图像或视频的图像数据的网页;由一个或多个计算机识别由主机托管的一个或多个中心页面的集合,一个或多个中心页面的集合中的每个中心页面通过中心页面上的基于图像的链接链接到可视叶页面中的至少一个可视叶页面,并且对于一个或多个中心页面的集合中的每个中心页面,生成表示中心页面链接到的可视叶页面的集群数据。该生成包括对于中心页面链接到的每个可视叶页面确定特征值的集合,其中每个特征值指示可视叶页面的预定义特征,并且从该特征值的集合生成中心特征值的集合作为中心页面的集群数据,该中心特征值的集合指示可视叶页面的每个相应预定义特征的中心趋势。
这些和其他实施例中的每一个可以可选地包括以下特征中的一个或多个。
在一些示例中,该方法包括,对于多个主机中的每个主机,将来自主机的集群数据合并成集群模型,其中每个集群模型是从中心特征值的两个或更多个集合生成的。该合并包括确定中心特征值的两个或更多个集合之间的相应差异,并且对于相应差异小于预定阈值的中心特征值的两个或更多个集合中的每一个,将中心特征值的这两个或更多个集合合成集群模型,该集群模型指示被合并的两个或更多个集群模型中的可视叶页面的中心趋势,并且将该集群模型与主机唯一地关联。该方法还可以包括接收指示响应于查询的网页的数据,该数据包括网页的特征值的集合以及指示网页的主机的数据,其中每个特征值指示网页的预定义特征,基于网页的主机识别与主机唯一地关联的集群模型,将识别到的集群模型中的每一个应用于网页以生成网页的相应模型分数,选择作为相应模型分数中的最高模型分数的模型分数,确定网页的选择的模型分数是否满足预定的阈值模型分数,并且响应于确定网页的选择的模型分数满足阈值模型分数,将网页分类为可视叶页面。在一些示例中,该网页具有对于查询的对应搜索分数,并且该方法包括基于将该网页分类为可视叶页面来修改该网页的搜索分数。
在一些示例中,识别由主机托管的可视叶页面基于与页面的所有其他内容相比较的、图像或视频的语义分析满足相关度的阈值。
在一些示例中,识别由主机托管的可视叶页面基于确定图像数据指示图像的可定制选择。
在一些示例中,识别由主机托管的可视叶页面基于确定图像或视频示出在网页的中心部分并且在面积上比网页上的所有其他内容至少大阈值比例。
在一些示例中,识别由主机托管的可视叶页面基于确定图像数据指示多个图像或视频的网格状结构。
在一些示例中,对于一个或多个中心(hub)页面的集合中的每个中心页面,生成表示中心页面链接到的可视叶页面的集群数据包括确定中心页面链接到的可视叶页面中的每一个具有相同的URL深度。
在一些示例中,可视叶页面的特征值的集合是具有对于该特征值的集合中的每个特征值的元素的向量。
在一些示例中,中心页面的集群数据是对于特征值的集合中的每个特征值具有特征值的平均值和标准偏差的元素的向量;并且其中,集群模型是对于特征值的集合中的每个特征值具有特征值的平均值和标准偏差的元素的向量。
一般而言,本说明书中描述的主题的另一个创新方面可以体现在一种系统中,该系统包括一个或多个计算机和存储指令的数据存储,当所述指令被一个或多个计算机运行时,使得一个或多个计算机执行操作。该操作包括,对于多个主机中的每一个,由一个或多个计算机识别由主机托管的可视叶页面,其中每个可视叶页面是包括定义相对于网页的所有其他内容突出地显示的图像或视频的图像数据的网页,由一个或多个计算机识别由主机托管的一个或多个中心页面的集合,并且一个或多个中心页面的集合中的每个中心页面通过中心页面上的基于图像的链接链接到可视叶页面中的至少一个可视叶页面,并且对于一个或多个中心页面的集合中的每个中心页面,生成表示中心页面链接到的可视叶页面的集群数据。该生成包括对于中心页面链接到的每个可视叶页面确定特征值的集合,其中每个特征值指示可视叶页面的预定义特征,并且从该特征值的集合生成中心特征值的集合作为中心页面的集群数据,该中心特征值的集合指示可视叶页面的每个相应预定义特征的中心趋势。
在一些示例中,操作可以包括,对于多个主机中的每个主机,将来自主机的集群数据合并成集群模型,其中每个集群模型是从中心特征值的两个或更多个集合生成的。该合并包括确定中心特征值的两个或更多个集合之间的相应差异,并且对于相应差异小于预定阈值的、中心特征值的两个或更多个集合中的每一个,将中心特征值的这两个或更多个集合合并成集群模型并且将集群模型与主机唯一地关联,所述集群模型指示被合并的两个或更多个集群模型中的可视叶页面的中心趋势。该操作还可以包括接收指示响应于查询的网页的数据,所述数据包括网页的特征值的集合以及指示网页的主机的数据,其中每个特征值指示网页的预定义特征,基于网页的主机识别与主机唯一地关联的集群模型,将每个识别到的集群模型应用于网页以生成网页的相应模型分数,选择作为相应模型分数中的最高模型分数的模型分数,确定网页的选择的模型分数是否满足预定的阈值模型分数,并且响应于确定网页的选择的模型分数满足阈值模型分数,将网页分类为可视叶页面。在一些示例中,网页具有对于查询的对应搜索分数,并且该操作包括基于将网页分类为可视叶页面来修改网页的搜索分数。
在一些示例中,识别由主机托管的可视叶页面基于确定与页面的所有其他内容相比较的、图像或视频的语义分析满足相关度的阈值,图像数据指示图像的可定制选择,图像或视频示出在网页的中心部分并且在面积上比网页上的所有其他内容至少大阈值比例,或者图像数据指示多个图像或视频的网格状结构中的至少一个。
一般而言,本说明书中描述的主题的另一个创新方面可以体现在一种非暂时性计算机可读介质中,该非暂时性计算机可读介质存储指令,该指令在被一个或多个计算设备运行时,使得该一个或多个计算设备执行操作。该操作包括,对于多个主机中的每一个,由一个或多个计算机识别由主机托管的可视叶页面,其中每个可视叶页面是包括定义相对于网页的所有其他内容突出地显示的图像或视频的图像数据的网页,由一个或多个计算机识别由主机托管的一个或多个中心页面的集合,并且每个中心页面通过中心页面上的基于图像的链接链接到可视叶页面中的至少一个可视叶页面,并且对于一个或多个中心页面的集合中的每个中心页面,生成表示中心页面链接到的可视叶页面的集群数据。该生成包括对于中心页面链接到的每个可视叶页面确定特征值的集合,其中每个特征值指示可视叶页面的预定义特征,以及从该特征值的集合生成中心特征值的集合作为中心页面的集群数据,该中心特征值的集合指示可视叶页面的每个相应预定义特征的中心趋势。
在一些示例中,该操作可以包括,对于多个主机中的每个主机,将来自主机的集群数据合并成集群模型,其中每个集群模型是从中心特征值的两个或更多个集合生成的。该合并包括确定中心特征值的两个或更多个集合之间的相应差异,并且对于相应差异小于预定阈值的、中心特征值的两个或更多个集合中的每一个,将中心特征值的这两个或更多个集合合并成集群模型并且将集群模型与主机唯一地关联,集群模型指示被合并的两个或更多个集群模型中的可视叶页面的中心趋势。该操作还可以包括接收指示响应于查询的网页的数据,该数据包括网页的特征值的集合以及指示网页的主机的数据,其中每个特征值指示网页的预定义特征,基于网页的主机识别与主机唯一地关联的集群模型,将识别到的集群模型中的每一个应用于网页以生成网页的相应模型分数,选择作为各个模型分数中的最高模型分数的模型分数,确定网页的选择的模型分数是否满足预定的阈值模型分数,并且响应于确定网页的选择的模型分数满足阈值模型分数,将网页分类为可视叶页面。在一些示例中,网页具有对于查询的对应搜索分数,并且操作包括基于将网页分类为可视叶页面来修改网页的搜索分数。
这个方面的其他实施例包括被配置为执行编码在计算机存储设备上的方法的动作的对应的系统、装置和计算机程序。
可以实现本文档中描述的主题的特定实施例,以便实现以下优点中的一个或多个。在一些搜索操作中,希望在图像搜索结果中将可视叶页面排名为高于非叶页面和非可视叶页面。
通过将网页分类为可视叶页面并存储可视叶页面的标识,分类器系统可以在返回搜索结果时实现高精度和查全率(recall)。该系统能够在不需要人工注释训练数据的情况下操作,减少了所需的人工输入量。
在一些实施方式中,可以在没有训练数据的情况下以无监督的方式训练分类器,这减少了训练时间。如此,本文档中讨论的技术增强了搜索分类器系统的自主性。本文档中讨论的方法使用定义中心页面的基线数据集合来引导(boot strap)将网页分类为可视叶页面的过程。通过减少最初需要的分类的数据的量,该方法允许分类器系统在减少人工输入,并且在某些情况下,完全没有人工输入的情况下操作。
在附图和以下描述中阐述了本说明书中描述的主题的一个或多个实施例的细节。根据说明书、附图和权利要求书,主题的其他特征、方面和优点将变得明显。
附图说明
图1是数字资源被识别并呈现给用户的示例环境的框图。
图2A-2B是被分析和分类的数字资源的图形表示。
图3是示例可视叶页面的图示。
图4-5是用于分析和分类数字资源的示例过程。
图6是示例计算系统的框图。
不同附图中相同的附图标记和名称指示相同的元件。
具体实施方式
本文档描述了将特定网页分类为可视叶页面的方法、系统和设备。页面是可视叶页面的知识可以用于各种应用,诸如搜索操作。在一些情况下,诸如当用户提交可视叶页面与用户的搜索意图比非可视叶页面更相关的查询时,提供可视叶页面作为结果是有利的。在其他情况下,用户可以明确请求搜索结果包括可视叶页面。
在操作时,系统识别要被索引的多个主机系统,例如网站。对于每个主机系统,系统识别由主机系统托管的可视叶页面。识别到的每个可视叶页面是包括图像数据的网页,其中该图像数据定义相对于网页的所有其他内容显著显示的图像或视频。然后,系统可以通过识别由主机托管的一个(或多个)中心页面(hub page)的集合来执行递归过程。每个识别到的中心页面通过中心页面上的基于图像的链接链接到可视叶页面中的至少一个可视叶页面。此后,可以发现来自中心页面的附加叶页面。
一旦识别到主机系统的叶页面和中心页面,系统就为一个或多个中心页面的集合中的每个中心页面生成表示中心页面链接到的可视叶页面的集群数据。这可以涉及为中心页面链接到的每个可视叶页面确定特征值的集合,然后从特征值的集合生成中心特征值的集合作为中心页面的集群数据。中心特征值的集合指示可视叶页面的每个相应预定义特征的中心趋势。
一旦集群被生成,它们就可以留存在模型中并与它们相应的主机相关联。此后,搜索系统接收指示响应于查询的网页的数据。该数据可以包括该网页的特征值的集合、以及指示该网页的主机的数据。搜索系统基于网页的主机识别与主机唯一关联的集群模型。识别到的集群模型被应用于网页,以生成网页的相应模型分数。如果模型分数足够高,则该网页被确定为可视叶页面,并且被如此分类。然后,可以执行取决于网页是可视叶页面的后续搜索操作。
注意,本文档中描述的技术也可以在用户浏览可用应用(例如,在线应用商店或网络浏览器)的情况下或在其他环境中(例如,在发布者网页上)实现。为简洁起见,下面的大部分描述将涉及搜索结果环境。
图1是可以使用可视叶页面分析器系统的示例环境的框图。诸如局域网(localarea network,LAN)、广域网(wide area network,WAN)、互联网或它们的组合的网络102连接发布者104、用户设备106和搜索引擎110。示例环境100可以包括许多不同的发布者104和用户设备106。
发布者104是通过使用网络102托管并提供对资源的电子访问的任何网站。网站包括与域名相关联的一个或多个资源105。示例网站是以超文本标记语言(hypertext markuplanguage,HTML)格式化的可以包含文本、图形图像、多媒体内容和编程元素(诸如脚本)的网页的集合。
资源是可以由发布者104通过网络102提供并且与资源地址相关联的任何数据。资源包括HTML页面、文字处理文档和便携式文档格式(portable document format,PDF)文档、图像、视频和提要源(feed source),仅举几例。资源包括诸如单词、短语、图片等的内容,并且可以包括嵌入信息(诸如元信息和超链接)和/或嵌入指令(诸如JavaScript脚本)。
每个资源具有可以唯一标识的可寻址存储位置。可寻址位置由资源定位符(诸如统一资源定位符(universal resource locator,URL))寻址。每个资源可以通过使用资源链接引用另一资源。示例资源链接是通过资源的URL引用另一资源的超文本标记语言(HTML)超链接,或者是可扩展标记语言(extensible markup language,XML)文档中的Xlink。
资源链接是传入资源链接还是传出资源链接取决于资源链接相对于资源的上下文。例如,对于第一资源,传出资源链接是寻址在不同于第一资源的URL的URL处的第二资源的、第一资源中的资源链接。对于传出资源链接,第一资源可以被称为“源资源”,并且第二资源可以被称为“目标资源”。类似地,到第一资源的传入资源链接是寻址第一资源的、第二资源中的资源链接。对于传入的资源链接,第一资源可以被称为“目标资源”,并且第二资源可以被称为“源资源”。
资源链接可以具有当在用户设备106上渲染时与资源中的其他文本明显不同的可见文本,诸如锚文本。例如,锚文本通常带有下划线并以不同的颜色渲染,以将其与资源中的其他文本区别。选择锚文本,即点击锚文本,使得用户设备请求由嵌入在资源链接中的URL寻址的资源。
资源链接也可以与图像地图(image map)中的区域相关联(“热链接(hotlink)”),或者是内嵌链接(in-line link)。热链接和内嵌链接不一定具有可见文本。
用户设备106是在用户控制下的电子设备,并且能够通过网络102请求和接收资源。示例用户设备106包括个人计算机、移动通信设备以及能够通过网络102发送和接收数据的其他设备。用户设备106典型地包括用户应用(诸如网络浏览器),以便于通过网络102发送和接收数据。
可能有通过网络102提供对可用的数百万资源105的访问的成千上万的发布者。为了便于搜索这些资源,搜索引擎110通过爬行发布者104并对由发布者104提供的资源编索引来识别资源。资源的被编索引并且可选地缓存的副本存储在页面索引114中。
用户设备106向搜索引擎110提交搜索查询109。作为响应,搜索引擎110使用页面索引114来识别与查询相关的资源。搜索引擎110以搜索结果111的形式识别资源,并在搜索结果页面将搜索结果111返回给用户设备106。搜索结果111是由识别满足特定搜索查询的资源的搜索引擎110生成的数据,并且包括资源的资源定位符。示例搜索结果111可以包括网页标题、从网页提取的文本片段、以及网页的URL。可以以到网页的资源链接的形式提供URL。
在环境100内运行的可视叶分类器系统120可以将特定资源105分类为可视叶页面。如上所述,可视叶页面是终端网页,或者是在其处用户可以访问特定资源、获取信息或执行关于该页面中描述的主题的动作的网页。可视叶页面是以表示该页面中描述的主题的一个或多个显著图像为中心的可视叶页面,换句话说,在该页面中移除该图像将明显使其变得不那么有用。一个或多个显著图像特别突出地显示在可视叶页面中。如果图像是1)尺寸比页面上的所有其他图像大至少阈值尺度、或者2)显示在已经被确定为显著图像被显示的位置的页面的预定义部分(例如,顶部或中心)中的一个或多个,则图像被突出地显示。例如,显著图像在显示尺寸上可以比要被突出地显示的所有非显著图像大。显著图像可以位于可视叶页面的中心,或者显示在页面的特定部分内。例如,如果图像显示在页面顶部三分之一内,则它可以是显著图像。如果存在多个显著图像,则每个显著图像可以基本上是相同的大小(例如,在阈值大小方差内)。具有以允许用户发现可视叶页面为主要目的的资源或内容的页面不是可视叶页面。
例如,如果用户请求来自搜索引擎的对于特定类型的活动(诸如,购物或寻找食谱)的图像搜索结果,则可视叶页面可以与搜索操作特别相关。这是因为与非可视叶页面相比,可视叶页面可以提供与用户正在搜索的内容更相关的内容。这种活动可能涉及浏览图像或滚动多个产品显示。例如,如果用户提交对“要穿到海滩上的太阳裙”的搜索查询,则系统可以确定显示允许用户查看和购买太阳裙的可视叶页面比提供太阳裙的定义更相关。
基于与由搜索结果识别的资源相关的分数(诸如信息检索(“IR”)分数以及可选地每个资源相对于其他资源的单独权威排名,对搜索结果进行排名。搜索结果111根据这些相关性分数排序,并根据该顺序提供给用户设备。
用户设备106接收搜索结果页面并渲染页面以呈现给用户。响应于用户在用户设备106处选择搜索结果,用户设备106请求由包括在选择的搜索结果中的资源定位符标识的资源。托管资源的发布者104从用户设备106接收对资源的请求,并将资源提供给请求用户设备106。
当确定资源与查询的相关性时,存在搜索引擎110可以使用的许多特征。这些特征包括资源或网页是否是可视叶页面。搜索引擎110可以访问页面索引114来确定特定搜索结果是否是可视叶页面,并且可以使用该确定来修改响应于用户的搜索查询而呈现的特定搜索结果的排名。
因此,可视叶页面分类器120用于确定来自发布者104的特定资源105是否是可视叶页面。可视叶页面分类器120处理资源105的页面数据112,以识别作为可视叶页面的特定资源105。例如,页面数据112包括多个页面105-1、105-2至105-n中的每一个的数据。可视叶页面分类器120包括模型构建器122和页面分析器124。在一些示例中,模型构建器122是离线组件,并且页面分析器124是在线组件。例如,模型构建器122生成表示多个已知可视叶页面的模型,并且页面分析器124使用生成的模型来确定响应于查询而返回的未分类网页是否是可视叶页面。
可视叶页面分类器120基于各种因素确定在特定查询的搜索结果中是否将可视叶页面排名在非可视叶页面之上。例如,可视叶页面分类器120可以从用户提交的查询中确定用户是实际想要购买细高跟鞋还是用户想要找出什么是细高跟鞋或者细高跟鞋是如何制造的。由可视叶页面分类器做出的确定可以被存储为页面数据112或存储在页面索引114中。
在一些实施方式中,资源105可以由显示相关资源105之间的关系的链接图来表示,如下面参考图2A和2B更详细地描述的。例如,一些资源105可以由其他资源105链接到。可视叶页面分类器120使用这些关系以及包括特定类型内容的存在的其他特征,以确定特定资源105是否是可视叶页面。将在下面更详细地描述这些特征。
图2A是提供被分析和分类的数字资源的图形表示的链接图200的图示。资源分类器系统(诸如上面参考图1描述的可视叶页面分类器120)根据链接图200中的资源的上下文来确定特定资源是否是可视叶页面。
图2A以图形方式描绘了链接图中的数字资源,其中资源被表示为链接图中的节点,并且每个资源之间的链接被表示为图中各个节点之间的边。在这个特定的表示中,每个图的根是中心(hub)页面,并且每个子节点(child node)是可视叶页面。中心页面和由中心页面链接到的可视叶页面中的每一个由特定域上的特定主机托管。主机存储用户可通过各种网络(诸如互联网)访问的数字资源。在一些示例中,当主机具有多个域时,主机的每个域被视为相同且作为主机的一部分。
节点202-1、202-2和202-3中的每一个是链接到子可视叶页面节点204的中心页面。节点204-1至204-14中的每个是通过基于图像的链接从其相应的中心页面链接到的可视叶页面。在这个特定示例中,节点204-1至204-13中的每一个是包括显著图像的可视叶页面,该显著图像包括被突出地显示在可视叶页面内并且允许用户执行与可视叶页面的主题相关的动作。
图2A包括子节点的子节点,其中子节点的子节点中的每一个是由可视叶页面链接到的页面。节点206-1至206-8中的每个是由可视叶页面204上的链接链接到的可视叶页面。节点208-1至208-4中的每个是由可视叶页面206上的链接链接到的可视叶页面。在一些示例中,由可视叶页面上的基于图像的链接链接到的页面也可以是可视叶页面。例如,如果由基于图像的链接链接到节点206-4、206-6、206-7、206-8和208-2中的每个,包括突出地显示的显著图像,并且允许用户执行与可视叶页面的主题相关的动作,则节点206-4、206-6、206-7、206-8和208-2中的每一个也是可视叶页面。
可视叶页面分类器120基于可视叶页面的各种特征(包括如链接图200中表示的、特定页面和其他页面之间的关系)确定特定页面是否是可视叶页面。例如,给定页面是可视叶页面的一个指示是存在从搜索引擎结果页面(search engine result page,SERP)到给定页面的包含相关联的图像的链接。在这样的示例中,包含到给定页面的基于图像的链接的SERP充当中心页面。中心页面可以通过基于图像的链接提供对可视叶页面的访问。中心页面可以是包括包含文章、博客帖子、产品页面等的网页的任何不同类型的页面,并且不限于SERP。在一些实施方式中,可视叶页面可以是中心页面。下面参考图3详细地描述示例性可视叶页面的属性。
图2B是提供被分析和分类的数字资源的图形表示的链接图250的图示。图2B使用图2A的链接图200中描绘的每个可视叶页面的关系,以图形方式描绘可视叶页面的分组。
在这个特定示例中,可视叶页面已经被识别为节点204-1至204-14、以及节点206-4、206-6、206-7、206-8和208-2。图2B示出了可视叶页面中的每一个被识别并且非可视叶页面已经从图形表示中移除。
模型构建器122基于被确定为相似的可视叶页面生成可视叶页面集群。模型构建器122的目标是识别聚合集群或块(chunk)的集合,并为每个块构建模型,使得给定主机内的每一可视叶页面适合一个块的模型,并且没有非可视叶页面适合任何块的模型。在这个特定示例中,模型构建器122使用自下而上的方法来识别特定主机内的块的集合。在一些示例中,可视叶页面由不同于链接到特定可视叶页面的中心页面的主机托管。例如,中心页面可以是时尚博客帖子,而来自中心页面的每个可视叶页面由百货商店的网站托管。在这样的示例中,可视叶页面基于链接到可视叶页面中的每一个的中心页面的主机被分组在一起。首先,从特定的主机中选择相似可视叶页面的小集群。然后,可视叶页面的相似集群被分组在一起,以形成可视叶页面站点块。
对于将被模型构建器122在集群生成期间视为可视叶页面的页面,除了具有来自中心页面的基于图像的链接之外,该页面必须满足以下标准中的一个或多个:大的渲染的显著图像、大的显著视频、og:image标记、产品元数据或食谱元数据。
在一些示例中,模型构建器122针对网格状布置分析页面的结构,以确保它不是SERP。在一些示例中,除了具有来自中心页面的基于图像的链接之外,SERP还包括大的显著图像。例如,时尚博客页面可以提供到SERP的基于图像的链接,以用于为海军外套设计白色连衣裙。在这个示例中,SERP不是可视叶页面,因为SERP仅便于响应于对特定搜索结果的选择而导航到另一页面。
如果中心页面具有满足模型构建器122的标准的足够数量的可视叶页面,则可视叶页面被认为属于相同的可视叶页面集群。足够数量的可视叶页面可以是预定数量、基于主机大小确定的数量等。使用这个标准,模型构建器122生成由它们的中心页面分组在一起的相似的可视叶页面的小集群。
群集的相似的可视叶页面作为训练集合的起点。然而,因为集群最初仅包括由中心页面的后续处理检测到的可视叶页面,所以集群可能不包括不具有中心页面的可视叶页面。因此,为了使集群模型概括超出种子可视叶页面或从基线训练集合确定的可视叶页面,该模型应该能够检测可能不具有相关联的中心页面的其他可视叶页面。一旦模型构建器122已经确定特定的可视叶页面托管在特定的主机上并且由对应的中心页面链接到,模型构建器122提取可视叶页面的特征并且使用提取的特征来生成可视叶页面的集群。
可以从基于中心页面的集群中的每个种子可视叶页面中提取网页的各种特征。例如,种子可视叶页面的URL深度、页面上相当大的图像数量、og:image标记的存在、页面中段落/部分/章节的数量、页面中配方元数据的存在、页面中唯一可见视频的数量。网页的URL深度是页面的URL的不同层级的长度,并且可以用指示URL层级数的向量来表示。例如,http://www.example-page.com/level1/level2/具有两个层级,因此路径深度为2,并且可以用诸如<2>的向量表示。在一些示例中,表示页面的URL深度的向量指示URL的每个层级的长度。例如,http://www.example-page.com/2017/level1/level2/level3具有四个层级,因此路径深度为4,并且可以由诸如<4,6,6,6>的向量表示。
可视叶页面集群表示多个相似的可视叶页面。在一些示例中,可视叶页面集群存储跨该集群中的所有可视叶页面提取的特征中的每个特征的平均值和标准偏差。例如,如果基于中心页面的集群包括二十个可视叶页面,则存储跨所有二十个可视叶页面提取的特征中的每个特征的平均值和标准偏差。跨包括在集群中的可视叶页面中的每个可视叶页面提取的特征的平均值和标准偏差可以存储在表示跨集群提取的特征的中心趋势的向量中。例如,如果特定块内的每个可视叶页面具有六个特征,并且存在十五个可视叶页面,则集群可以用15×6的矩阵来表示。每列的平均值和标准偏差可以用长度为6的向量表示。向量被认为是集群的中心,并且提供了对于集群内的可视叶页面的广义模型。
可视叶页面的集群由链接图250内的可视叶页面的分组252、254和256表示。分组252、254和256中的每一个包括共享中心页面的可视叶页面。在一些示例中,模型构建器122将生成的集群中的每一个存储为页面数据112或存储在页面索引114中。
模型构建器122创建包含具有相同中心页面的相似的可视叶页面的小可视叶页面集群。在一些示例中,特定主机可能具有非常大量的中心页面,因此具有许多集群。可视叶页面分类器120使用生成的集群来分类给定页面是否是可视叶页面,并且大量的集群伴随着对应大的计算时间。
特定的站点可能具有多个不同的集群。然而,当通过使用多个不同集群的广义模型来处理网页时,在将模型应用于每个搜索结果时,具有相对大量的不同集群可能导致处理延迟。为了在向提交查询的用户设备返回排名的搜索结果时减少计算时间和延迟,模型构建器122将被确定为相似的相似的可视叶页面集群合并。
模型构建器122可以基于集群的各种特征(诸如集群的可视叶页面的URL深度或可视叶页面中的每个可视叶页面的提取特征的值),合并特定主机内的相似的集群。在一些示例中,模型构建器122比较集群的中心,以确定中心是否间隔开小于阈值距离。阈值距离可以由环境100的用户预定,或者基于集群的各种特征(诸如特定主机内的集群的数量、特定主机内集群之间的平均距离等)来确定。如果两个集群间隔开小于阈值距离,则模型构建器122将这两个集群组合成可视叶页面站点块。
模型构建器122通过为组合的集群生成新的中心来组合集群,该新的中心表示被组合的集群中包括的所有可视叶页面的中心。例如,模型构建器122可以确定跨被组合的集群内的所有可视叶页面提取的每个特征的平均值和标准偏差,以生成表示组合的集群的中心的新向量。在一些示例中,模型构建器122将新向量存储在页面数据112或页面索引114中。
模型构建器122将集群组合成块,以构建对包含的可视叶页面建模的块的最小集合,使得每个块覆盖尽可能多的可视叶页面,同时保持可视叶页面之间的相似度的阈值水平。
在图2B中由分组260和262表示可视叶页面块或模型。这些模型中的每一个表示与该模型中的其他可视叶页面中的每一个共享阈值水平的相似度的多个可视叶页面的分组。
页面分析器124使用块向量或模型,通过将给定资源与特定主机内的每个模型进行比较,来确定特定主机中的给定资源是否是可视叶页面。页面分析器124确定给定资源是否具有与可视叶页面块的阈值量的相似度,并且如果给定资源至少具有与特定主机内的模型的阈值量的相似度,则将给定资源分类为可视叶页面。例如,页面分析器124可以找到块的中心和给定资源的特征之间的欧几里德距离。页面分析器124可以使用包括计算给定资源的与模型的特征完全匹配的特征的数量或者确定模型的URL深度是否与给定资源匹配的各种其他方法来确定给定资源与模型的相似度。
在一些实施方式中,特定页面可以适合多个模型。一旦页面在模型的中心的阈值量内,页面分析器124就将该页面分类为可视叶页面,并且在这样的示例中,页面适合不同模型的事实不影响页面分析器124是否将页面分类为可视叶页面。
图3是示例性可视叶页面300的图示。可视叶页面300可以通过诸如环境100的数字计算环境来访问。
在一些示例中,可视叶页面可以独立于中心页面。在这样的示例中,特定图像的终端文档可以是可视叶页面。终端文档包括被突出地显示的显著图像,并且允许用户执行与终端文档内表示的主题相关的动作。
可视叶页面300包括突出地显示在页面300内的显著图像302。图像302比页面上的其他图像大,并且显示在页面300的中心部分。如果图像至少与环境100的用户指定的预定大小一样大,并且显示在页面的预定区域内,则图像也可以是显著图像。
可视叶页面300允许用户执行与页面300的主题相关的动作。在该示例中,主题是服装,并且动作是订购显著图像302中所示的服装。用户可以使用用户界面元素304订购服装。在该示例中,元素304是允许用户将服装添加到他们的数字购物袋中的按钮。
通过由地址306指示的特定主机托管的中心页面链接到可视叶页面300。在这个示例中,主机是Example Host,并且可视叶页面300具有三的URL深度。
图4是用于分析和分类数字资源的示例过程400的流程图。在一些实施方式中,过程400可以由一个或多个计算机实现。例如,过程400可以由可视叶页面分类器120及其组件来实现。
对于托管作为潜在搜索结果的数字资源的多个主机中的每一个(402),重复过程400。例如,对于可以在用户提交查询时返回的网页的数据库,可以对于托管数据库内的网页之一的主机中的每个主机重复过程400。
当可视叶页面分类器120识别由主机托管的可视叶页面,其中每个可视叶页面是包括定义相对于网页的所有其他内容突出地显示的图像或视频的图像数据的网页时(404),过程400继续。例如,可视叶页面分类器120可以将包括比页面上的所有其他图像大的图像的页面识别为可视叶页面。
在一些示例中,识别由主机托管的可视叶页面基于与页面的所有其他内容相比较的、图像或视频的语义分析满足相关度的阈值。例如,可视叶页面分类器120可以确定特定页面上的显著图像的内容是否至少与该页面的其他内容相关阈值量,并且如果是,则可视叶页面分类器120可以将该特定页面识别为可视叶页面。
在一些示例中,识别由主机托管的可视叶页面基于确定图像数据指示图像的可定制选择。例如,如果特定网页包括用户可以选择作为较大图像查看或作为主要的显著图像查看的多个图像(诸如在鞋店网站的项目页面上),则可视叶页面分类器120可以确定该特定网页是可视叶页面。
在一些示例中,其中识别由主机托管的可视叶页面基于确定图像或视频示出在网页的中心部分并且在面积上比网页上的所有其他内容大至少阈值比例。例如,可视叶页面分类器120可以基于确定特定页面包括显示在特定页面的中心三分之一内并且比网页上所有其他内容大至少40%的图像来确定该特定页面是可视叶页面。阈值比例可以是各种比例,并且可以由环境100的用户指定。
在一些示例中,其中识别由主机托管的可视叶页面基于确定图像数据指示多个图像或视频的网格状结构。例如,因为特定页面是显示与用户提交的查询匹配的图像的网格状布置的搜索引擎结果页面,所以可视叶页面分类器120可以确定该特定页面不是可视叶页面。
当可视叶页面分类器120识别由主机托管的一个或多个中心页面的集合,并且一个或多个中心页面中的每个通过中心页面的基于图像的链接链接到可视叶页面中的至少一个可视叶页面时(406),过程400继续。例如,可视叶页面分类器120可以识别诸如烹饪网站的中心页面,中心页面中的每个通过食谱的图像链接到提供为晚餐制作的菜肴的各种食谱的可视叶页面中的至少一个可视叶页面。
当对于一个或多个中心页面的集合中的每个中心页面,模型构建器122生成表示中心页面链接到的可视叶页面的集群数据时(408),过程400继续。可视叶页面分类器120的模型构建器122可以生成集群数据,诸如参考图2A-2B描述的代表性向量。
当该生成包括由模型构建器122并且对于中心页面链接到的每个可视叶页面确定特征值的集合,其中每个特征值指示可视叶页面的预定义特征时(410),过程400继续。例如,特征值可以包括每个可视叶页面是否包括大的渲染显著图像、大的显著视频、产品元数据、食谱元数据、或代码标记(诸如og:image)。
当该生成包括由模型构建器122并且从特征值的集合生成中心特征值的集合作为中心页面的集群数据,该中心特征值的集合指示可视叶页面的每个相应预定义特征的中心趋势时(412),过程400继续。例如,模型构建器122可以生成表示集群的中心的向量,如以上参考图2A-2B所述。
在一些示例中,可视叶页面分类器120为一个或多个中心页面的集合中的每个中心页面生成集群数据。集群数据通过确定中心页面链接到的可视叶页面中的每一个具有相同的URL深度来表示中心页面链接到的可视叶页面。例如,可视叶页面分类器120可以确定可视叶页面中的每一个具有3的URL深度,并且可以确定可视叶页面应该群集在一起。
在一些示例中,可视叶页面的特征值的集合是具有对于该特征值的集合中的每个特征值的元素的向量。
在一些示例中,中心页面的集群数据是对于特征值的集合中的每个特征值具有特征值的平均值和标准偏差的元素的向量,并且集群模型是对于特征值的集合中的每个特征值也具有平均值和标准偏差的元素的向量。例如,集群模型和中心页面的集群数据各自可以由具有指示可视叶页面特征中的每一个的平均值和标准偏差的成对值的向量表示。
图5是用于分析和分类数字资源的示例过程500的流程图。过程500可以是过程400的一部分或延续,并且可以由可视叶页面分类器120及其组件来执行。
过程500包括由模型构建器122将来自主机的集群数据合并成集群模型,其中每个集群模型是从中心特征值的两个或更多个集合生成的(502)。例如,模型构建器122可以合并可视叶页面集群,如以上参考图2A-2B所述。
当该合并包括由模型构建器122确定中心特征值的两个或更多个集合之间的相应差异时(504),过程500继续。例如,模型构建器122可以计算可视叶页面集群的中心之间的欧几里德距离,如以上参考图2A-2B所述。
当该合并包括由模型构建器122并且对于相应差异小于预定阈值的中心特征值的两个或更多个集合中的每一个,将中心特征值的这两个或更多个集合合并成集群模型,集群模型指示被合并的两个或更多个集群模型中的可视叶页面的中心趋势时(506),过程500继续。例如,模型构建器122可以确定两个可视叶页面集群间隔开小于预定的阈值距离,并且通过生成新的集群中心向量将这两个集群合并成块或模型。
当该合并包括由模型构建器122将集群模型与主机唯一地关联时(508),过程500继续。例如,模型构建器122可以将新的模型向量存储在页面索引114或页面数据112中。
模型向量表示两个或更多个合并的可视叶页面集群。搜索系统可以使用模型向量来确定特定的搜索结果页面是否是可视叶页面。这种搜索系统可以使用可视叶页面分类器120来识别作为可视叶页面的搜索结果页面,并且更改识别到的搜索结果页面的权限分数。例如,搜索系统可以增加识别到的可视叶页面的权限分数,并且在呈现非叶页面结果之前呈现识别到的可视叶页面。在这样的示例中,过程500包括在可视叶页面分类器120处接收指示响应于查询的网页的数据,该数据包括网页的特征值的集合以及指示网页的主机的数据,其中每个特征值指示网页的预定义特征。过程500还可以包括由页面分析器124并基于网页的主机识别与主机唯一地关联的集群模型,并将识别到的集群模型中的每一个应用于网页以生成网页的相应模型分数。过程500还可以包括由页面分析器124选择作为相应模型分数中最高的模型分数的模型分数;确定网页的选择的模型分数是否满足预定的阈值模型分数。响应于确定网页的选择的模型分数满足阈值模型分数,过程500包括由页面分析器124将网页分类为可视叶页面。
在一些示例中,网页具有用于查询的对应权限分数,并且过程500包括基于将网页分类为可视叶页面来修改网页的权限分数或搜索分数。
图6是可以用于执行上述操作的示例计算机系统600的框图。系统600包括处理器610、存储器620、存储设备630、和输入/输出设备640。组件610、620、630和640中的每一个可以例如使用系统总线650互连。处理器610能够处理用于在系统600内执行的指令。在一个实施方式中,处理器610是单线程处理器。在另一实施方式中,处理器610是多线程处理器。处理器610能够处理存储在存储器620中或存储设备630上的指令。
存储器620存储系统600内的信息。在一个实施方式中,存储器620是计算机可读介质。在一个实施方式中,存储器620是易失性存储单元。在另一实施方式中,存储器620是非易失性存储单元。
存储设备630能够为系统600提供大容量存储。在一个实施方式中,存储设备630是计算机可读介质。在各种不同的实现方式中,存储设备630可以包括例如硬盘设备、光盘设备、由多个计算设备在网络上共享的存储设备(例如,云存储设备)、或者一些其他大容量存储设备。
输入/输出设备640为系统600提供输入/输出操作。在一个实施方式中,输入/输出设备640可以包括一个或多个网络接口设备(例如,以太网卡)、串行通信设备(例如,和RS-232端口)、和/或无线接口设备(例如,和802.11卡)。在另一实施方式中,输入/输出设备可以包括被配置为接收输入数据并将输出数据发送到其他输入/输出设备660,例如,键盘、打印机和显示设备的驱动设备。然而,也可以使用其他实施方式,诸如移动计算设备、移动通信设备、机顶盒电视用户设备等。
尽管在图6中描述了示例处理系统,但是本说明书中描述的主题和功能操作的实施方式可以在其他类型的数字电子电路中实现,或者在包括本说明书中公开的结构及其结构等同物的计算机软件、固件或硬件中实现,或者在它们中的一个或多个的组合中实现。
电子文档(为简洁起见,将简称为文档)不一定对应于文件。文档可以存储在保存其他文档的文件的一部分中,存储在专用于所讨论文档的单个文件中,或者存储在多个协调文件中。
本说明书中描述的主题和操作的实施例可以在数字电子电路中实现,或者在包括本说明书中公开的结构及其结构等同物的计算机软件、固件或硬件中实现,或者在它们中的一个或多个的组合中实现。本说明书中描述的主题的实施例可以被实现为编码在计算机存储介质(或介质)上用于由数据处理装置执行或控制数据处理装置的操作的一个或多个计算机程序,即计算机程序指令的一个或多个模块。可替换地或附加地,程序指令可以被编码在人工生成的传播信号(例如机器生成的电、光或电磁信号)上,该传播信号被生成以编码用于传输到合适的接收器装置来由数据处理装置执行的信息。计算机存储介质可以是或包括在计算机可读存储设备、计算机可读存储基底、随机或串行存取存储器阵列或设备、或它们中的一个或多个的组合中。此外,虽然计算机存储介质不是传播信号,但是计算机存储介质可以是编码在人工生成的传播信号中的计算机程序指令的源或目的地。计算机存储介质也可以是或包括在一个或多个单独的物理组件或介质(例如,多个CD、磁盘或其他存储设备)中。
本说明书中描述的操作可以实现为由数据处理装置对存储在一个或多个计算机可读存储设备上的或从其他来源接收的数据执行的操作。
术语“数据处理装置”涵盖用于处理数据的所有类型的装置、设备和机器,例如,包括可编程处理器、计算机、片上系统、或前述的多个或组合。该装置可以包括专用逻辑电路,例如,FPGA(field-programmable gate array,现场可编程门阵列)或ASIC(application-specific integrated circuit,专用集成电路)。除了硬件之外,该装置还可以包括为所讨论的计算机程序创建执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行时环境、虚拟机或它们中的一个或多个的组合的代码。该装置和执行环境可以实现各种不同的计算模型基础设施,诸如网络服务、分布式计算和网格计算基础设施。
计算机程序(也称为程序、软件、软件应用、脚本或代码)可以以任何形式的编程语言(包括编译或解释语言、声明或过程语言)编写,并且可以以任何形式(包括作为独立程序或作为模块、组件、子例程、对象或适合在计算环境中使用的其他单元)部署。计算机程序可以但不必要对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的一部分(例如,存储在标记语言文档中的一个或多个脚本)中,存储在专用于所讨论的程序的单个文件中,或者存储在多个协调文件(例如,存储一个或多个模块、子程序、或代码的部分的文件)中。计算机程序可以被部署为在位于一个站点或跨多个站点分布并通过通信网络互连的一台或多台计算机上执行。
本说明书中描述的过程和逻辑流程可以由一个或多个可编程处理器执行,该一个或多个可编程处理器执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行动作。过程和逻辑流程也可以由专用逻辑电路来执行,并且装置也可以实现为专用逻辑电路,例如,FPGA(现场可编程门阵列)或ASIC(专用集成电路)。
例如,适于执行计算机程序的处理器包括通用和专用微处理器两者。一般,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于按照指令执行动作的处理器和用于存储指令和数据的一个或多个存储设备。一般,计算机还将包括用于存储数据的一个或多个大容量存储设备(例如,磁盘、磁光盘或光盘),或者可操作地耦合到一个或多个大容量存储设备以从一个或多个大容量存储设备接收数据或将数据传送到一个或多个大容量存储设备或两者。然而,计算机不需要具有这样的设备。此外,计算机可以嵌入到另一设备(例如,移动电话、个人数字助理(personal digital assistant,PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(Global Positioning System,GPS)接收器或便携式存储设备(例如,通用串行总线(universal serial bus,USB)闪存驱动器),仅举几个示例)中。适于存储计算机程序指令和数据的设备包括所有形式的非易失性存储器、介质和存储设备,包括例如:半导体存储设备,例如EPROM、EEPROM和闪存设备;磁盘,例如,内部硬盘或可移动磁盘;磁光盘;以及CD ROM和DVD-ROM磁盘。处理器和存储器可以由专用逻辑电路来补充或并入专用逻辑电路中。
为了提供与用户的交互,本说明书中描述的主题的实施例可以在计算机上实现,该计算机具有用于向用户显示信息的显示设备(例如,CRT(cathode ray tube,阴极射线管)或LCD(liquid crystal display,液晶显示器)监视器、以及键盘和定点设备(例如,鼠标或轨迹球),用户可以通过键盘和定点设备向计算机提供输入。也可以使用其他类型的设备来提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感觉反馈,例如,视觉反馈、听觉反馈或触觉反馈;并且可以以任何形式接收来自用户的输入,包括声学、语音或触觉输入。此外,计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互;例如,通过响应于从网络浏览器接收的请求,向用户的用户设备上的网络浏览器发送网页。
本说明书中描述的主题的实施例可以在计算系统中实现,该计算系统包括后端组件,例如作为数据服务器,或者包括中间件组件,例如应用服务器,或者包括前端组件,例如具有图形用户界面或网络浏览器的客户端计算机,其中用户可以通过该图形用户界面或网络浏览器与本说明书中描述的主题的实施方式交互,或者包括一个或多个这样的后端、中间件或前端组件的任意组合。系统的组件可以通过任何形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“local area network,LAN”)和广域网(“wide area network,WAN”)、互联网络(例如,互联网)和对等网络(例如,自组织对等网络)。
计算系统可以包括客户端和服务器。客户端和服务器一般彼此远离,并且典型地通过通信网络进行交互。客户端和服务器的关系是通过在相应的计算机上运行并且彼此之间具有客户端-服务器关系的计算机程序产生的。在一些实施例中,服务器向用户设备发送数据(例如,HTML页面)(例如,为了向与用户设备交互的用户显示数据和从该用户接收用户输入)。可以从服务器处的用户设备接收在用户设备处生成的数据(例如,用户交互的结果)。
虽然本说明书包含许多具体的实施方式细节,但这些不应被解释为对任何发明或可能要求保护的范围的限制,而是对特定于特定发明的特定实施例的特征的描述。本说明书中在单独实施例的上下文中描述的某些特征也可以在单个实施例中组合实现。相反,在单个实施例的上下文中描述的各种特征也可以在多个实施例中单独或以任何合适的子组合来实现。此外,尽管特征在上面可以被描述为以某些组合起作用,甚至最初这样要求保护,但是在一些情况下,可以从该组合中删除所要求保护的组合中的一个或多个特征,并且所要求保护的组合可以针对子组合或子组合的变体。
类似地,尽管在附图中以特定顺序描绘了操作,但这不应理解为要求以所示的特定顺序或相继顺序执行这些操作,或者要求执行所有所示的操作,以获得期望的结果。在某些情况下,多任务处理和并行处理可能是有利的。此外,上述实施例中的各种系统组件的分离不应理解为在所有实施例中都需要这种分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中或者封装到多个软件产品中。
因此,已经描述了主题的特定实施例。其他实施例在所附权利要求的范围内。在一些情况下,权利要求中记载的动作可以以不同的顺序执行,并且仍然获得期望的结果。此外,附图中描绘的过程不一定需要所示的特定顺序或相继顺序来获得期望的结果。在某些实施方式中,多任务处理和并行处理可能是有利的。

Claims (13)

1.一种用于识别可视叶页面的方法,包括:
对于多个主机中的每一个:
由一个或多个计算机识别由主机托管的可视叶页面,其中每个可视叶页面是包括定义相对于网页的所有其他内容突出地显示的图像或视频的图像数据的网页;
由所述一个或多个计算机识别由所述主机托管的两个或多个中心页面的集合,所述两个或多个中心页面的集合中的每个中心页面通过中心页面上的基于图像的链接链接到可视叶页面中的至少一个可视叶页面;以及
对于所述两个或多个中心页面的集合中的每个中心页面,为中心页面生成表示中心页面链接到的可视叶页面的集群数据,所述生成包括:
对于仅中心页面链接到的每个可视叶页面确定包括两个或多个特征值的特征值的集合分别指示可视叶页面的预定义特征,所述两个或多个特征值的一个或多个指示可视叶页面的内容的布局;以及
从从仅中心页面链接到的可视叶页面的所述特征值的集合生成中心特征值的集合作为中心页面的集群数据,所述中心特征值的集合指示中心页面链接到的可视叶页面的所述两个或多个特征值的每个相应预定义特征的中心趋势;
其中,为两个或多个中心页面的集合中的每个中心页面生成的集群数据与为两个或多个中心页面的集合中的其他中心页面生成的集群数据分离;
由所述一个或多个计算机接收指示响应于搜索查询的网页的数据;
由所述一个或多个计算机,使用由至少包括集群数据的基线数据集合训练的可视叶页分类器,至少部分基于与网页相关联的特征值的集合与两个或多个中心页面的集合中的至少一个的中心特征值的集合的比较,将网页分类为可视叶页面;
由所述一个或多个计算机确定搜索查询请求对于特定类型的活动的图像搜索结果;以及
基于将网页分类为可视叶页面并确定搜索查询请求对于特定类型的活动的图像搜索结果,由所述一个或多个计算机增加与网页相关的搜索分数。
2.如权利要求1所述的方法,还包括,对于所述多个主机中的每个主机:
将来自主机的集群数据合并成集群模型,其中每个集群模型是从中心特征值的两个或更多个集合生成的,所述合并包括:
确定中心特征值的两个或更多个集合之间的相应差异;
对于相应差异小于预定阈值的、中心特征值的两个或更多个集合中的每一个,将中心特征值的所述两个或更多个集合合并成集群模型,所述集群模型指示被合并的两个或更多个集群模型中的可视叶页面的中心趋势;以及
将集群模型与主机唯一地关联。
3.如权利要求2所述的方法,其中,指示响应于搜索查询的网页的数据指示网页的托管,所述方法还包括:
基于网页的主机识别与主机唯一地关联的集群模型;
将识别到的集群模型中的每一个应用于网页,以生成网页的相应模型分数;
选择作为相应模型分数中的最高模型分数的模型分数;
确定网页的选择的模型分数是否满足预定的阈值模型分数;以及
响应于确定网页的选择的模型分数满足阈值模型分数,将网页分类为可视叶页面。
4.如权利要求1所述的方法,其中,对于两个或多个中心页面的集合中的至少一个,一个或多个预定义特征对应于一个或多个可视内容项目的大小、数量或位置。
5.如权利要求1所述的方法,其中,识别由主机托管的可视叶页面基于与页面的所有其他内容相比较的、所述图像或视频的语义分析满足相关度的阈值。
6.如权利要求1所述的方法,其中,识别由主机托管的可视叶页面基于确定所述图像数据指示图像的可定制选择。
7.如权利要求1所述的方法,其中,识别由主机托管的可视叶页面基于确定所述图像或视频示出在所述网页的中心部分并且在面积上比所述网页上的所有其他内容至少大阈值比例。
8.如权利要求1所述的方法,其中,识别由主机托管的可视叶页面基于确定所述图像数据指示多个图像或视频的网格状结构。
9.如权利要求1所述的方法,其中,对于所述一个或多个中心页面的集合中的每个中心页面,生成表示中心页面链接到的可视叶页面的集群数据还包括:确定中心页面链接到的可视叶页面中的每一个具有相同的URL深度。
10.如权利要求1所述的方法,其中,所述可视叶页面的特征值的集合是具有对于所述特征值的集合中的每个特征值的元素的向量。
11.如权利要求1所述的方法,其中,所述中心页面的集群数据是具有对于特征值的集合中的每个特征值的、特征值的平均值和标准偏差的元素的向量;并且其中,集群模型是具有对于特征值的集合中的每个特征值的、特征值的平均值和标准偏差的元素的向量。
12.一种用于识别可视叶页面的系统,包括:
一个或多个计算机;
数据存储,其存储指令,当所述指令被所述一个或多个计算机运行时,使得所述一个或多个计算机执行前述权利要求中任一项所述的方法。
13.一种非暂时性计算机可读介质,其存储指令,当所述指令被一个或多个计算设备运行时,使得所述一个或多个计算设备执行权利要求1至11中任一项所述的方法。
CN201780088306.9A 2017-04-05 2017-12-08 用于识别可视叶页面的方法和系统 Active CN110431550B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/479,927 2017-04-05
US15/479,927 US11086961B2 (en) 2017-04-05 2017-04-05 Visual leaf page identification and processing
PCT/US2017/065324 WO2018186917A1 (en) 2017-04-05 2017-12-08 Visual leaf page identification and processing

Publications (2)

Publication Number Publication Date
CN110431550A CN110431550A (zh) 2019-11-08
CN110431550B true CN110431550B (zh) 2023-10-10

Family

ID=60923904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780088306.9A Active CN110431550B (zh) 2017-04-05 2017-12-08 用于识别可视叶页面的方法和系统

Country Status (4)

Country Link
US (1) US11086961B2 (zh)
EP (1) EP3580666A1 (zh)
CN (1) CN110431550B (zh)
WO (1) WO2018186917A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2744032C2 (ru) 2019-04-15 2021-03-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для определения результата выполнения задачи в краудсорсинговой среде
RU2020107002A (ru) * 2020-02-14 2021-08-16 Общество С Ограниченной Ответственностью «Яндекс» Способ и система приема метки для цифровой задачи, исполняемой в краудсорсинговой среде

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102270331A (zh) * 2011-08-14 2011-12-07 黄斌 基于可视化搜索的网络购物导航方法
US8078625B1 (en) * 2006-09-11 2011-12-13 Aol Inc. URL-based content categorization
CN102609791A (zh) * 2012-03-15 2012-07-25 北京华电天仁电力控制技术有限公司 基于云平台的规模化集中式远程风电功率预测中心
CN103714113A (zh) * 2012-10-02 2014-04-09 波音公司 全景可视化文档访问控制
CN104850415A (zh) * 2014-02-13 2015-08-19 腾讯科技(深圳)有限公司 页面加载方法和装置
CN105574644A (zh) * 2014-12-01 2016-05-11 曹树槐 基于三维评价与时域追溯的质量感知信息管理方法和系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7676465B2 (en) * 2006-07-05 2010-03-09 Yahoo! Inc. Techniques for clustering structurally similar web pages based on page features
GB2446176A (en) 2007-01-31 2008-08-06 Jules May A method of generating associated content
US20090171986A1 (en) * 2007-12-27 2009-07-02 Yahoo! Inc. Techniques for constructing sitemap or hierarchical organization of webpages of a website using decision trees
US8965894B2 (en) * 2010-12-21 2015-02-24 Tata Consultancy Services Limited Automated web page classification
US8458213B2 (en) * 2011-02-28 2013-06-04 Ebay Inc. Method and system for classifying queries to improve relevance of search results
DE212011100098U1 (de) * 2011-04-28 2013-01-10 Google Inc. Präsentieren von Suchergebnissen für Galerie-Webseiten
US9081832B2 (en) * 2012-04-24 2015-07-14 Google Inc. Providing leaf page sublinks in response to a search query
US9158857B2 (en) * 2012-06-05 2015-10-13 Google Inc. Identifying landing pages for images

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8078625B1 (en) * 2006-09-11 2011-12-13 Aol Inc. URL-based content categorization
CN102270331A (zh) * 2011-08-14 2011-12-07 黄斌 基于可视化搜索的网络购物导航方法
CN102609791A (zh) * 2012-03-15 2012-07-25 北京华电天仁电力控制技术有限公司 基于云平台的规模化集中式远程风电功率预测中心
CN103714113A (zh) * 2012-10-02 2014-04-09 波音公司 全景可视化文档访问控制
CN104850415A (zh) * 2014-02-13 2015-08-19 腾讯科技(深圳)有限公司 页面加载方法和装置
CN105574644A (zh) * 2014-12-01 2016-05-11 曹树槐 基于三维评价与时域追溯的质量感知信息管理方法和系统

Also Published As

Publication number Publication date
EP3580666A1 (en) 2019-12-18
US11086961B2 (en) 2021-08-10
CN110431550A (zh) 2019-11-08
US20180293325A1 (en) 2018-10-11
WO2018186917A1 (en) 2018-10-11

Similar Documents

Publication Publication Date Title
US10459970B2 (en) Method and system for evaluating and ranking images with content based on similarity scores in response to a search query
US10296538B2 (en) Method for matching images with content based on representations of keywords associated with the content in response to a search query
US9053115B1 (en) Query image search
US10289700B2 (en) Method for dynamically matching images with content items based on keywords in response to search queries
US20180181569A1 (en) Visual category representation with diverse ranking
US9436707B2 (en) Content-based image ranking
US10380461B1 (en) Object recognition
US20130339344A1 (en) Web-scale entity relationship extraction
US20130110827A1 (en) Relevance of name and other search queries with social network feature
US11301540B1 (en) Refined search query results through external content aggregation and application
WO2012155012A1 (en) Dynamic image display area and image display within web search results
US10289642B2 (en) Method and system for matching images with content using whitelists and blacklists in response to a search query
US10275472B2 (en) Method for categorizing images to be associated with content items based on keywords of search queries
US10235387B2 (en) Method for selecting images for matching with content based on metadata of images and content in real-time in response to search queries
CN109952571B (zh) 基于上下文的图像搜索结果
US20160357868A1 (en) Related entities
CN108763244A (zh) 在图像内搜索和注释
CN110431550B (zh) 用于识别可视叶页面的方法和系统
Sujatha et al. Web scale discovery services/tools: transforming access to library resources

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant