CN106233284A - 针对信息资源内可能包括主要内容的节点生成稳定标识符的方法和系统 - Google Patents

针对信息资源内可能包括主要内容的节点生成稳定标识符的方法和系统 Download PDF

Info

Publication number
CN106233284A
CN106233284A CN201580019959.2A CN201580019959A CN106233284A CN 106233284 A CN106233284 A CN 106233284A CN 201580019959 A CN201580019959 A CN 201580019959A CN 106233284 A CN106233284 A CN 106233284A
Authority
CN
China
Prior art keywords
identifier
node
content
dom
subset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201580019959.2A
Other languages
English (en)
Other versions
CN106233284B (zh
Inventor
托马斯·詹姆斯·沃辛顿·朗
彼得·森斯特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN106233284A publication Critical patent/CN106233284A/zh
Application granted granted Critical
Publication of CN106233284B publication Critical patent/CN106233284B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

公开了生成用于可能包括信息资源的主要内容的节点的稳定标识符的系统和方法。由处理器基于包括一个或多个规则的主要内容检测策略来识别信息资源上的多个与内容有关的文档对象模型(DOM)节点。由处理器确定包含所识别的与内容有关的DOM节点中的一个或多个DOM节点的一个或多个容器节点。针对容器节点中的每一个,处理器生成与容器节点相对应的一个或多个标识符。然后,针对所生成的标识符中的每一个,处理器确定标识符所对应的一个或多个容器节点。处理器从所生成的标识符识别仅与包含与内容有关的DOM节点的容器节点相对应的所生成的标识符的子集;以及将子集的标识符中的一个选择为稳定标识符。

Description

针对信息资源内可能包括主要内容的节点生成稳定标识符的 方法和系统
相关申请
本申请要求2014年4月16日提交的,名为“METHODS AND SYSTEMS FOR GENERATINGA STABLE IDENTIFIER FOR NODES LIKELY INCLUDING PRIMARY CONTENT WITHIN ANINFORMATION RESOURCE”的美国专利申请No.14/254,349的优先权的权益及其优先权,其全部内容通过引用合并至此。
背景技术
诸如网页的信息资源能包括主要内容和用作第三方内容项的占位符的内容槽位(slot),诸如创意。当网页呈现在用户计算设备上时,第三方内容项被插入内容槽位中并且被提供用于显示在主要内容旁边。通常以网页代码手动地定义第三方内容项插入的内容槽位。
发明内容
至少一个方面针对一种生成用于可能包括信息资源的主要内容的节点的稳定标识符的方法。由处理器基于包括一个或多个规则的主要内容检测策略来识别信息资源上的多个与内容有关的文档对象模型(DOM)节点。由处理器确定包含所识别的与内容有关的DOM节点中的一个或多个DOM节点的一个或多个容器节点。处理器针对容器节点中的每一个,生成与容器节点相对应的一个或多个标识符。然后,处理器针对所生成的标识符中的每一个,确定标识符所对应的一个或多个容器节点。处理器从所生成的标识符识别仅与包含与内容有关的DOM节点的容器节点相对应的所生成的标识符的子集;以及将子集的标识符中的一个选择为稳定标识符。
在一些实施方式中,处理器针对多个与内容有关的DOM节点中的一个与内容有关的DOM节点,确定容器节点中,离由容器节点所包含的与内容有关的DOM节点最近的容器节点。在一些实施方式中,处理器通过识别i)以标题开始、或ii)节点是指示所述节点是帖子的层叠样式表(CSS)类的成员的一个或多个容器节点;以及所述节点i)具有包括ARTICLE的标签名、或ii)节点具有包括DIV、INS或TD的标签名并且节点具有至少一个稳定类名,确定离与内容有关的DOM节点最近的容器节点。在一些实施方式中,稳定类名包括不以数字结束的任何类名。
在一些实施方式中,将子集的标识符中的一个标识符选择为稳定标识符包括识别仅包括标签名的子集的标识符。在一些实施方式中,将子集的标识符中的一个标识符选择为稳定标识符包括:针对子集的每个标识符,基于子集中的标识符所关联的容器节点的内容的数目,确定指示标识符识别信息资源上的主要内容的能力的内容标识分值;以及基于子集的标识符的内容标识分值,将子集的标识符中的一个选择为稳定标识符。
在一些实施方式中,确定子集中的每个标识符的内容标识分值包括确定在与子集的标识符相关联的容器节点内所包括的段落中的第一字符数和在与子集的标识符相关联的容器节点内所包括的第二字符数。在一些实施方式中,确定子集中的每个标识符的内容标识分值包括确定在与子集的标识符相关联的容器节点内所包括的第一段落数和在信息资源内所包括的第二段落数。在一些实施方式中,确定子集中的每个标识符的内容标识分值包括确定在与子集的标识符相关联的容器节点内所包括的段落中的第一字符数和在信息资源内所包括的所有段落内所包括的第二字符数。
在一些实施方式中,由处理器利用信息资源来存储稳定标识符的身份。在一些实施方式中,响应于接收派发信息资源的请求,处理器将创意插入在与稳定标识符相对应的相邻容器节点之间中。
在一些实施方式中,处理器通过所生成的标识符,确定仅与包含与内容有关的DOM节点的容器节点相对应的所生成的标识符的子集,并且将子集的标识符中的一个选择为稳定标识符。
根据另一方面,一种生成用于可能包括信息资源的主要内容的节点的稳定标识符的系统包括数据处理系统,该数据处理系统被配置为:基于包括一个或多个规则的主要内容检测策略来识别信息资源上的多个与内容有关的文档对象模型(DOM)节点;确定包含所识别的与内容有关的DOM节点中的一个或多个DOM节点的一个或多个容器节点;针对容器节点中的每一个,生成与容器节点相对应的一个或多个标识符;针对所生成的标识符中的每一个,确定标识符所对应的一个或多个容器节点;从所生成的标识符识别仅与包含与内容有关的DOM节点的容器节点相对应的所生成标识符的子集;以及将子集的标识符中的一个选择为稳定标识符。
在一些实施方式中,处理器针对多个与内容有关的DOM节点中的一个与内容有关的DOM节点,确定容器节点中,离由容器节点所包含的与内容有关的DOM节点最近的容器节点。在一些实施方式中,处理器通过识别i)以标题开始、或ii)节点是指示所述节点是帖子的层叠样式表(CSS)类的成员的一个或多个容器节点;以及节点i)具有包括ARTICLE的标签名、或ii)节点具有包括DIV、INS或TD的标签名并且节点具有至少一个稳定类名的一个或多个容器节点,确定离与内容有关的DOM节点最近的容器节点。在一些实施方式中,稳定类名包括不以数字结束的任何类名。
在一些实施方式中,将子集的标识符中的一个标识符选择为稳定标识符包括识别子集的标识符中,仅包括标签名的标识符。在一些实施方式中,将子集的标识符中的一个标识符选择为稳定标识符包括:针对子集的每个标识符,基于子集中的标识符所关联的容器节点的内容的数目,确定指示标识符识别信息资源上的主要内容的能力的内容标识分值;以及基于子集的标识符的内容标识分值,将子集的标识符中的一个选择为稳定标识符。
在一些实施方式中,确定子集中的每个标识符的内容标识分值包括确定在与子集的标识符相关联的容器节点内所包括的段落中的第一字符数和在与子集的标识符相关联的容器节点内所包括的第二字符数。在一些实施方式中,确定子集中的每个标识符的内容标识分值包括确定在与子集的标识符相关联的容器节点内所包括的第一段落数和在信息资源内所包括的第二段落数。在一些实施方式中,确定子集中的每个标识符的内容标识分值包括确定在与子集的标识符相关联的容器节点内所包括的段落中的第一字符数和在信息资源内所包括的所有段落内所包括的第二字符数。
在一些实施方式中,由处理器利用信息资源来存储稳定标识符的身份。在一些实施方式中,响应于接收派发信息资源的请求,处理器将创意插入在与稳定标识符相对应的相邻容器节点之间中。
在一些实施方式中,处理器通过所生成的标识符,确定仅与包含与内容有关的DOM节点的容器节点相对应的所生成的标识符的子集,并且将子集的标识符中的一个选择为稳定标识符。
根据另一方面,一种计算机可读存储介质具有计算机可执行指令,计算机可执行指令当由计算机执行时,使计算机:基于包括一个或多个规则的主要内容检测策略来识别信息资源上的多个与内容有关的文档对象模型(DOM)节点;确定包含所识别的与内容有关的DOM节点中的一个或多个DOM节点的一个或多个容器节点;针对容器节点中的每一个,生成与容器节点相对应的一个或多个标识符;针对所生成的标识符中的每一个,确定标识符所对应的一个或多个容器节点;通过所生成的标识符,识别仅与包含与内容有关的DOM节点的容器节点相对应的所生成标识符的子集;以及将子集的标识符中的一个选择为稳定标识符。
在下文中详细地描述这些和其他方面和实施方式。前述信息和下述详细描述包括各个方面和实施方式的说明性示例,并且提供用于理解所要求保护的方面和实施方式的性质和特性的概述或框架。附图提供各个方面和实施方式的示例和进一步理解,以及被合并在本说明书中并且构成其一部分。
附图说明
附图不旨在按比例绘制。不同图中相同的参考数字和名称指示相同的元素。为了清楚起见,并非每个组件均被标签在每个图中。在附图中:
图1是根据说明性实施方式描绘用于自动地生成用于在信息资源内所检测的主要内容的稳定标识符的环境的一个实施方式的框图。
图2A是包括多个帖子的信息资源的显示器的屏幕截图。
图2B是图2A中所示出但包括在多个段落之间插入的创意的信息资源的显示器的屏幕截图。
图3A是包括多个段落的文章的信息资源的显示器的屏幕截图。
图3B是图3A中所示但不包括在多个段落之间插入的创意的信息资源的显示器的屏幕截图。
图4是描绘生成用于在信息资源内所检测的主要内容的稳定标识符所采用的步骤的一个实施方式的流程图。
图5是图示可以用来实现本文所述和所示的系统的各种元素和方法的计算机系统的一般架构的实施方式的框图。
具体实施方式
下文是与用于自动地生成用于在信息资源内所检测的主要内容的稳定标识符的方法、装置和系统有关的各个方面以及所述方法、装置和系统的实施方式的更详细描述。上文介绍过并且在下文更详细论述的各种概念可以以多种方式中的的任何一种一个实现,因为所述的概念不限于实施方式的任何特定方式。为说明的目的,主要提供具体实施方式和应用的示例。
本公开涉及生成用于在信息资源内所检测的主要内容的稳定标识符。通过在信息资源内检测主要内容(诸如帖子或文章),数据处理系统能针对所检测的主要内容生成稳定标识符。能使用该稳定标识符来在未来信息资源呈现时引用主要内容。例如,一旦数据处理系统生成用于包括在信息资源中的主要内容的稳定标识符,当在计算设备处呈现信息资源时,数据处理系统能动态地将创意插入信息资源中。
信息资源通常非常复杂。例如,许多信息资源包括若干图像和文本的不同章节。信息资源能包括菜单、页眉、侧边栏、页脚、广告、小工具以及被认为是真正主要内容的部分。尽管查看信息资源的用户很容易区分信息资源的这些不同部分并且集中在主要内容上,但自动地检测包括在信息资源中的主要内容的过程更有挑战性。
信息资源(诸如网页)上的主要内容通常能以两种格式中的一种呈现。在一种格式中,主要内容能被呈现为帖子的列表。每个帖子是与某一主题有关的自己的不同的内容段,但将帖子结合起来组成网页的主要内容。相反,在另一种格式中,能将主要内容呈现为单一长格式帖子或文章。
一旦识别信息资源上的主要内容,通常主要内容包含在与稳定标识符相关联的容器中。本公开提供用于自动地生成用于信息资源的所检测的主要内容的稳定标识符的方法和系统。所生成的稳定标识符能被用来将用于提供创意或第三方内容项的内容槽位插入在信息资源上。
本公开提供用于自动地检测这些主要内容段的方法和系统。关于将内容呈现为帖子列表的第一格式,可以将每个帖子识别为不同内容段。相反,关于将内容呈现为单个帖子或文章的第二格式,应当将整个主要内容检测为单个内容段。
除检测主要内容外,本公开提供用于生成用于所检测的主要内容的稳定标识符的方法和系统。例如,一起形成主要内容的帖子中的每个能被封包(wrapped)在HTML源中的<ARTICLE class='post'>标签中,使得稳定标识符可能是{tagName:'ARTICLE',className:'post'}。将内容呈现为单个帖子或文章的第二格式用作另一示例,帖子或文章能封包在HTML源中的<DIV class='story-body'>标签中,使得稳定标识符可能是{tagName:'DIV',className:'story-body'}。
一旦在浏览器中呈现网页,这些标识符允许由JavaScript非常快速和有效地访问该页面上的帖子或文章。这允许将创意动态地插入在页面的主要内容内。在一个示例中,当网页将主要内容呈现为帖子的列表时,能在每个帖子的第一段落后插入创意。在另一示例中,当网页将主要内容呈现为单个内容段时,在文章的前三个段落后,插入创意。
本公开涉及用于生成用于信息资源的内容章节的稳定标识符的方法和系统。处理器被配置为基于与节点相关联的标识符,识别信息资源上,可能包括主要内容的多个与内容有关的文档对象模型(DOM)节点,确定包含识别的与内容有关的DOM节点中的一个或多个的一个或多个容器节点,对容器节点中的每一个,生成与容器节点相对应的一个或多个标识符,通过所生成的标识符,确定仅与包含与内容有关的DOM节点的容器节点相对应的一个或多个潜在标识符,并且将潜在标识符中的一个选择为稳定标识符。
图1图示出经由至少一个计算机网络(诸如网络105),生成用于在信息资源内所检测的主要内容的稳定标识符的系统100。网络105能包括计算机网络,诸如互联网、局域网、广域网、城域网或其他区域网、内联网、卫星网络、其他计算机网络(诸如声音或数据移动电话通信网络)及其组合。系统100还能包括至少一个数据处理系统110,例如至少一个逻辑设备,诸如具有使处理器经由网络105与例如至少一个内容提供者计算设备115、至少一个内容发布者计算设备120或至少一个终端用户计算设备125通信的计算设备或服务器。
数据处理系统110能包括至少一个服务器。例如,数据处理系统110能包括位于至少一个数据中心或服务器场中的多个服务器。在一些实施方式中,数据处理系统110包括内容投放系统,例如广告服务器或广告投放系统。数据处理系统110能包括至少一个主要内容检测模块130、至少一个稳定标识符生成模块132、至少一个内容插入模块134和至少一个数据库140。主要内容检测模块130、稳定标识符生成模块132和内容插入模块134能分别包括至少一个处理单元、服务器、虚拟服务器、电路、引擎、代理、电器或诸如可编程门阵列的其他逻辑设备,其被配置为经由网络105,与数据库140和其他计算设备(例如,内容提供者计算设备115、内容发布者计算设备120或终端用户计算设备125)通信。
主要内容检测模块130、稳定标识符生成模块132和内容插入模块134能包括或执行至少一个计算机程序或至少一个脚本。主要内容检测模块130、稳定标识符生成模块132和内容插入模块134能是单独的组件、单个组件或数据处理系统110的一部分。主要内容检测模块130、稳定标识符生成模块132和内容插入模块134能包括,诸如一个或多个处理器的软件和硬件的组合,其被配置为执行一个或多个脚本来在信息资源上,识别可能包括主要内容的多个与内容有关的文档对象模型(DOM)节点,确定包含所识别的与内容有关的DOM节点中的一个或多个的一个或多个容器节点,针对容器节点中的每一个,生成与容器节点相对应的一个或多个标识符,通过所生成的标识符,确定仅与包含与内容有关的DOM节点的容器节点相对应的一个或多个潜在标识符,并且将潜在标识符中的一个选择为稳定标识符。
内容提供者计算设备115能包括由内容提供者实体所操作的服务器或其他计算设备以提供在终端用户计算设备125处的信息资源上显示的内容项,诸如广告。由内容提供者计算设备115所提供的内容能包括用于在包括主要内容(例如,由内容发布者计算设备120所提供的内容)的信息资源(诸如网站或网页)上显示的第三方内容项或创意(例如,广告)。内容项还能显示在搜索结果网页上。例如,内容提供者计算设备115能提供或是广告源或其他内容项,用于显示在内容网页(诸如由公司提供网页的主要内容的公司的网页)的内容槽位中,或用于显示在由搜索引擎所提供的搜索结果登录页面上。与内容提供者计算设备115相关联的内容项能被显示在除网页外的信息资源上,诸如显示为智能电话或其他终端用户计算设备125上的应用的执行的一部分的内容。
内容发布者计算设备120能包括由内容发布实体操作以经由网络105提供用于显示的主要内容的服务器或其他计算设备。例如,内容发布者计算设备120能包括提供用于在网页上显示的主要内容的网页操作者。主要内容能包括除由内容发布者计算设备120所提供的内容以外的内容,以及网页能包括被配置为显示来自内容提供者计算设备115的第三方内容项(例如,广告)的内容槽位。例如,内容发布者计算设备120能操作公司的网站并且能提供与该公司有关的内容用于显示在网站的网页上。网页能包括被配置为显示第三方内容项(诸如内容提供者计算设备115的广告)的内容槽位。在一些实施方式中,内容发布者计算设备120包括操作搜索引擎网站的搜索引擎操作者的搜索引擎计算设备(例如,服务器)。搜索引擎网页的主要内容(例如,登录网页的结果)能包括搜索结果以及在内容槽位中所显示的第三方内容项,诸如来自内容提供者计算设备115的内容项。
终端用户计算设备125能包括被配置为经由网络105通信以显示数据的计算设备,所述数据诸如由内容发布者计算设备120所提供的内容(例如,主要网页内容或其他信息资源)以及由内容提供者计算设备115所提供的内容(例如,第三方内容项,诸如被配置为显示在网页的内容槽位中的广告)。终端用户计算设备125、内容提供者计算设备115和内容发布者计算设备120能包括台式计算机、膝上型计算机、平板计算机、智能电话、个人数字助理、移动设备、终端用户计算设备、消费者计算设备、服务器、客户端和其他计算设备。终端用户计算设备125、内容提供者计算设备115和内容发布者计算设备120能包括用户接口,诸如麦克风、扬声器、触摸屏、键盘、指针设备、计算机鼠标、触控板或其他输入或输出接口。
内容提供者计算设备115、内容发布者计算设备120和终端用户计算设备125可以是任意多个不同用户电子设备,例如,膝上型计算机、台式计算机、平板计算机、智能电话、数字视频录像机、用于电视的机顶盒、视频游戏机或任何其他计算设备,被配置为经由网络105通信。内容提供者计算设备115、内容发布者计算设备120和终端用户计算设备125能包括处理器和存储器,即,处理电路。存储器存储机器指令,所述指令当被处理器执行时,使处理器执行本文所述的一个或多个操作。处理器可以包括微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)等或其组合。存储器可以包括但不限于电、光、磁或能够为处理器提供程序指令的任何其他存储或传输设备。存储器可以进一步包括处理器能从其读取指令的软盘、CD-ROM、DVD、磁盘、存储器芯片、ASIC、FPGA、只读存储器(ROM)、随机存取存储器(RAM)、电可擦ROM(EEPROM)、可擦可编程ROM(EPROM)、闪速存储器、光学介质或任何其他适当的存储器。指令可以包括来自任何适当计算机编程语言的代码,诸如但不限于C、C++、C#、Java、JavaScript、Perl、Python和Visual Basic。
内容提供者计算设备115、内容发布者计算设备120和终端用户计算设备125还可以包括一个或多个用户接口设备。通常,用户接口设备是指通过生成感觉信息(例如,显示器上的可视化、一个或多个声音等)将数据传达给用户,以及将从用户所接收的感觉信息转换成电子信号的任何电子设备(例如,键盘、鼠标、指针设备、触摸屏显示器、麦克风等)。根据各种实施方式,一个或多个用户接口设备可以在内容提供者计算设备115、内容发布者计算设备120和终端用户计算设备125的壳体的内部(例如,内置显示器、麦克风等)或在内容提供者计算设备115、内容发布者计算设备120和终端用户计算设备125的壳体的外部(例如,连接到内用户计算设备115的监视器、连接到用户计算设备115的扬声器等)。例如,内容提供者计算设备115、内容发布者计算设备120和终端用户计算设备125可以包括电子显示器,其使用从一个或多个内容源和/或经由网络105从数据处理系统110所接收的网页数据,可视地显示网页。在一些实施方式中,内容投放活动管理器或广告商能经由内容提供者计算设备115来与数据处理系统110通信。在一些实施方式中,广告商能经由在内容提供者计算设备115的用户显示设备上所显示的用户界面来与数据处理系统110通信。
主要内容检测模块130能是数据处理系统110中的一个或多个服务器的一部分或能包括由数据处理系统110中的一个或多个服务器执行的脚本。在一些实施方式中,主要内容检测模块130能被设计、构造或配置成识别信息资源上,可能包括主要内容的多个与内容有关的文档对象模型(DOM)节点。主要内容的示例能包括帖子、文章或Web发布者所提供的其他内容项。可能不被视为主要内容的内容的示例能包括广告、小工具或与主要内容不相关的链接。在一些实施方式中,主要内容检测模块130能被配置为识别包括在信息资源中的所有与内容有关的文档对象模型(DOM)节点。在一些实施方式中,主要内容检测模块130能通过检查信息资源的DOM树来识别与内容有关的DOM节点。主要内容检测模块130能识别包括在信息资源内的每个节点并且确定所识别的节点是否是与内容有关的DOM节点。
在一些实施方式中,主要内容检测模块130能基于包括一个或多个规则的主要内容检测策略来确定DOM节点是与内容有关的DOM节点。在一些实施方式中,如果节点是有效文本节点而不是有效链接节点中的一个或多个、包含预定多个以上字符、节点的上代(ancestor)不是段落、或者节点呈现的高度大于或等于段落的文本行的高度的2倍,或DOM树中的在前有效文本节点为标题,主要内容检测模块130能确定节点为与内容有关的DOM节点。在一些实施方式中,如果节点包含与帖子或文章相对应的内容,或信息资源的发布者视为主要内容的任何其他内容,主要内容检测模块130能确定节点为与内容有关的DOM节点。在一些实施方式中,如果节点为包含可见文本的文本节点,节点能被定义为有效文本节点。在一些实施方式中,如果节点的所有下代(children)均为内联节点以及节点的下代中的至少一个为有效文本节点,该节点被视为有效文本节点。在一些实施方式中,如果节点为作为锚标签(诸如A标签)的后代(decendent)的有效文本节点,该节点被定义为有效链接节点。在一些实施方式中,如果节点具有至少一个下代并且所有节点的下代均是有效链接,该节点能被定义为有效链接节点。在一些实施方式中,如果节点为有效文本节点并且该节点,或节点的后代为页眉标签,诸如H1,H2,H3,H4,H5或H6标签,该节点能被定义为标题。在一些实施方式中,如果节点为标题,该节点被认为从该标题开始。在一些实施方式中,如果节点不是段落,以及当遍历节点子树时,在遇到段落前,遇到标题,则该节点被认为从该标题开始。
主要内容检测模块130能被配置为针对每个与内容有关的DOM节点,确定包含所识别的与内容有关的DOM节点中的一个或多个DOM节点的一个或多个容器节点。在一些实施方式中,如果节点满足两个标准,DOM树的节点可以被识别为容器节点。第一标准是节点具有标签类型ARTICLE或节点具有标签类型DIV,INS或TD并且节点具有至少一个稳定类名。在一些实施方式中,如果类名不是以数字结束,类名可以被认为是稳定的。在一些实施方式中,如果类名不匹配下述正则表达式:/^.*[09]+$/,则其被视为是稳定的。第二标准是节点以标题开始或节点为指示节点为帖子的层叠样式表(CSS)类的成员。指示节点为帖子的CSS类类型的示例能包括“post”或“typepost”。
在一些实施方式中,主要内容检测模块130能对所识别的与内容有关的DOM节点中的每一个,确定离与内容有关的DOM节点最近的容器节点。在一些实施方式中,离给定与内容有关的DOM节点最近的容器节点能是包含与内容有关的DOM节点并且没有其他也包含与内容有关的DOM节点的容器节点的容器节点。在一些实施方式中,离给定与内容有关的DOM节点最近的容器节点能是包含与内容有关的DOM节点以及没有其他容器节点的容器节点。在一些实施方式中,主要内容检测模块130能存储每个所识别的与内容有关的DOM节点的记录以及包含所识别的与内容有关的DOM节点的最近容器节点的身份。
在一些实施方式中,主要内容检测模块130能确定用于每个容器节点的任何等效容器节点,其被确定为包含所识别的与内容有关的DOM节点中的一个或多个。在一些实施方式中,如果节点的后代的正好一个是容器节点,节点能被视为等效容器上代节点,DOM节点正好包含与后代容器节点相同的有效文本节点集合并且节点满足用于确定节点为容器节点的两个标准。
在一些实施方式中,主要内容检测模块130能维护容器节点的列表。主要内容检测模块130能包括针对列表中的与内容有关的DOM节点的每一个确定的容器节点的每一个。在一些实施方式中,主要内容检测模块130还能包括针对每个容器节点所确定的等效容器上代节点中的每一个。在一些实施方式中,主要内容检测模块130能从列表移除任何重复节点使得容器节点的列表包括所确定的容器节点中的每一个以及与所确定的容器节点相对应的任何等效的容器上代节点。
稳定标识符生成模块132能是数据处理系统110中的一个或多个服务器的一部分或能包括由数据处理系统110中的一个或多个服务器执行的脚本。在一些实施方式中,稳定标识符生成模块132能被设计、构造或配置成针对包括在容器节点的列表中的容器节点的每一个,生成与容器节点相对应的一个或多个标识符。在一些实施方式中,稳定标识符生成模块132能被配置成针对包括在列表中的容器节点中的每一个,生成与容器节点相对应的每一标识符。
在一些实施方式中,稳定标识符生成模块132能基于与稳定标识符生成模块132为其生成标识符的容器节点相关联的标签的类型,生成标识符。在一些实施方式中,稳定标识符生成模块132能基于与容器节点相关联的类名,生成标识符。在一些实施方式中,稳定标识符生成模块132能根据包括一个或多个规则的标识符生成策略,生成标识符。在一些实施方式中,为生成用于给定容器节点的标识符,稳定标识符生成模块132识别与容器节点相关联的标签的类型以及与标签相关联的类名。在一些实施方式中,如果容器节点与ARTICLE标签类型相对应,稳定标识符生成模块132能生成仅具有标签名的标识符。在一些实施方式中,标识符的标签名能是ARTICLE。在一些实施方式中,如果ID稳定,稳定标识符生成模块132能生成具有标签名和ID的标识符。稳定的ID能是不以数字结束的任何ID。在一些实施方式中,如果容器节点与除ARTICLE外的任何标签类型相对应,稳定标识符生成模块132能生成具有标签名和类名的标识符。在一些实施方式中,标识符能包括标签类型和单一稳定类名。在一些实施方式中,稳定类名能与不以数字结束的类名相对应。
在一些实施方式中,稳定标识符生成模块132能被配置为维持针对包括在容器节点的列表中的容器节点所生成的标识符的列表。在一些实施方式中,稳定标识符生成模块132可以移除针对容器节点所生成的标识符的列表中的任何重复。
在一些实施方式中,稳定标识符生成模块132能被配置为基于优先策略,排序针对容器节点所生成的标识符。在一些实施方式中,优先策略能包括用于排序潜在标识符的一个或多个规则。通常,由稳定标识符生成模块132所生成的良好标识符应当是稳定的,应当可靠地识别包含可能包括主要内容的节点的信息资源上的所有容器节点,并且不应当识别包括在信息资源中的任何其他节点。在一些实施方式中,稳定标识符生成模块132能被配置为比较包括在列表中的标识符以按优先顺序排序标识符。
在一些实施方式中,为执行或实现优选策略,稳定标识符生成模块132能比较两个或更多,首先确定两个标识符中的任何一个是否仅包括标签名。仅具有标签名的标识符优选于具有标签名和ID的标识符或具有标签名和类名的标识符。同样地,如果标识符中的一个仅具有标签名,该标识符的排名将高于不仅仅具有标签名的标识符。如果稳定标识符生成模块132识别标识符中的任何一个均不仅仅包括标签名,稳定标识符生成模块132确定两个标识符中的任何一个是否包括标签名和ID。具有标签名和ID的标识符优选于具有标签名,而不具有ID的标识符。同样地,如果标识符中的一个具有标签名和ID,该标识符排名将高于不具有ID的标识符。如果稳定标识符生成模块132识别标识符中的任何一个均不包括标签名和ID,稳定标识符生成模块132确定两个标识符中的任何一个是否包括标签名和类名。具有标签名和类名的标识符将优选于具有标签名而不具有类名的标识符。同样地,如果标识符中的一个具有标签名和类名,该标识符的排名将高于不具有类名的标识符。如果稳定标识符生成模块132识别两个标识符均包括标签名和类名,稳定标识符生成模块132确定哪一标识符具有更优选类名。具有更优选类名的标识符优选于具有较低优选类名的标识符。同样地,如果标识符中的一个具有标签名和更优选类名,该标识符排名将高于不具有更优选类名的标识符。在一些实施方式中,类名“post-container”更优选于类名“post”和“type-post”,以及类名“post”更优选于类名“type-post”。如果稳定标识符生成模块132识别标识符中的任何一个均不包括具有优选类名的标签名,稳定标识符生成模块132确定具有更长类名的标识符优选于具有较短类名的标识符。同样地,具有更长类名的标识符排名将高于具有更短类名的标识符。例如,具有标签名DIV和类名“post”的标识符优选于具有标签类型DIV和类名“another-class-name”的标识符,因为类名“post”是优选类名。在另一示例中,具有标签名DIV和类名“another-class-name”的标识符优选于具有标签类型DIV和类名“class-name”的标识符,因为类名“another-class-name”长于类名“class-name”。
稳定标识符生成模块132能被配置为将由稳定标识符生成模块132所生成的标识符中的每一个与由主要内容检测模块130所确定的容器节点比较。在一些实施方式中,稳定标识符生成模块132能构造将每个所生成的标识符映射到稳定标识符生成模块132能通过其生成标识符的所有容器节点的映射。在一些实施方式中,标识符能用作所构造的映射中的键。
在一些实施方式中,稳定标识符生成模块132能被配置为针对所生成的标识符中的每一个,确定标识符与其对应的一个或多个容器节点。在一些实施方式中,稳定标识符生成模块132能被构造成针对每个标识符,在信息资源的DOM树中执行查找来识别由标识符引用的所有节点。针对与标识符相对应的所识别的节点的每一个,稳定标识符生成模块132能确定所识别的节点是在由主要内容检测模块130所维护的容器节点的列表中还是该节点满足用于被识别为容器节点的标准。响应于确定所识别的节点不在容器节点的列表上或不满足用于被识别为容器节点的标准,稳定标识符生成模块132不会将该标识符视为稳定标识符,并且从标识符的列表移除该标识符。相反,响应于确定所识别的节点在容器节点的列表上或满足用于被识别为容器节点的标准,稳定标识符生成模块132能确定用于该标识符的内容标识分值。内容标识分值能指示标识符能多有效地识别信息资源上的帖子、文章或其他主要内容。在一些实施方式中,内容标识分值能指示标识符识别主要内容的能力。
在一些实施方式中,稳定标识符生成模块132能被配置为基于标识符所关联的容器节点的内容数量,来确定内容标识分值。在一些实施方式中,稳定标识符生成模块132能基于包含在与标识符相关联的容器节点中可能包括主要内容的节点中的第一多个字符以及包括在与标识符相关联的容器节点内的第二多个字符,来确定每个标识符的内容标识分值。在一些实施方式中,稳定标识符生成模块132能基于包含在与标识符相关联的容器节点中可能包括主要内容的第一多个节点和包括在信息资源内的第二多个段落,来确定每个标识符的内容标识分值。在一些实施方式中,稳定标识符生成模块132能基于在与标识符相关联的容器节点中可能包括主要内容的节点所包含的第一多个字符和在包括在信息资源内可能包括主要内容的所有节点内所包括的第二多个字符,来确定每个标识符的内容标识分值。
在一些实施方式中,稳定标识符生成模块132能被配置为基于下述公式,来确定内容标识分值。
S = C P A R A C T O T A L + K 1 P C O N T A I N E D P T O T A L + K 2 D C O N T A I N E D D T O T A L
其中,CPARA是包含在与潜在标识符相关联的容器节点中的可能包括主要内容的节点中的字符数;
CTOTAL是与潜在标识符相关联的容器节点中的字符总数;
PCONTAINED是包含在与潜在标识符相关联的容器节点中的可能包括主要内容的节点数;
PTOTAL是信息资源上可能包括主要内容的节点的总数;
DCONTAINED是包含在与潜在标识符相关联的容器节点中的包含在可能包括主要内容的节点中的字符数;
DTOTAL是信息资源上的包含在可能包括主要内容的所有节点中的字符数;
K1是可调参数(例如,0.5);以及
K2是可调参数(例如,1)。
稳定标识符生成模块132能被配置为识别具有最大内容标识分值的标识符。然后,稳定标识符生成模块132能从多个所生成的标识符选择该标识符,作为用于识别包含可能包括主要内容的节点的容器节点的稳定标识符。
在一些实施方式中,稳定标识符生成模块132能被配置为将所识别的潜在标识符与信息资源一起存储。在一些实施方式中,所识别的潜在标识符能与包括主要内容的容器节点中的每一个相关联。以这种方式,当访问信息资源以在稍后呈现时,识别包括主要内容的容器节点的标识符能用来易于识别包括主要内容的容器节点。在一些实施方式中,创意能被插入在可能包括主要内容的节点附近,由此提高创意的转化率。
内容插入模块134能是数据处理系统110中的一个或多个服务器的部分或能包括由数据处理系统110中的一个或多个服务器所执行的脚本。在一些实施方式中,内容插入模块134能被设计、构造或被配置为将创意插入包含可能包括主要内容的节点的相邻容器节点之间。在一些实施方式中,内容插入模块134能使用由稳定标识符生成模块132所选择的稳定标识符,来识别容器节点。在一些实施方式中,内容插入模块134能请求对信息资源访问,识别所生成的稳定标识符以及识别与所生成的稳定标识符相关联的容器节点。然后,内容插入模块134能将创意插入在紧临或接近这些容器节点的位置。当在主要内容附近所显示的创意倾向具有较高转化率时,内容插入模块134能增加由内容插入模块134插入在信息资源上的创意的转化率。
现在简单地参考图2A和2B,图2A示出在浏览器窗口内显示的信息资源202的屏幕截图200。信息资源202包括主要内容和第三方内容220a-n。主要内容包括多个帖子210a-n,每个帖子具有相关联的图像、标题和对应文字。图1中所示的稳定标识符生成模块132能被配置为将稳定标识符与信息资源202的DOM树相关联并且识别包含多个帖子210a-n中的每一个的容器节点。内容插入模块134能被配置为使用与信息资源202相关联的稳定标识符来将创意插入在多个帖子210a-n之间。图2B示出图2A所示的包括多个帖子210a-n之间的创意230a-n的信息资源的屏幕截图。
在一些实施方式中,内容插入模块134能被配置为包括以信息资源的DOM树的脚本或其他软件构造,使得当在计算设备上执行的浏览器上呈现信息资源时,能与插入在信息资源的相邻帖子之间的创意一起,呈现信息资源。在一些实施方式中,浏览器能执行脚本或软件构造来识别与稳定标识符相对应的容器节点,插入创意槽位并且使创意被检索以插入在创意槽位中。在一些实施方式中,内容插入模块134能被配置以使信息资源呈现在浏览器上,使得在位于相邻帖子之间或与一个或多个帖子相邻的槽位中显示创意。
现在简单地参考图3A和3B,图3A示出了在浏览器窗口内显示的信息资源302的屏幕截图300。信息资源302包括主要内容和第三方内容320a-n。主要内容包括具有相关联的图像、标题和多个段落312a-312n中的对应文字的文章310。图1中所述的稳定标识符生成模块132能被配置为将稳定标识符与信息资源302的DOM树相关联并且识别包含多个段落312a-n中的每一个的容器节点。内容插入模块134能被配置为使用与信息资源302相关联的稳定标识符来将创意插入在段落312a-n之间或与之相邻。图3B示出图3A中所示的包括两个段落312a-n之间的创意330的信息资源的屏幕截图。
在一些实施方式中,内容插入模块134能被配置为包括以信息资源的DOM树的脚本或软件构造,使得当在计算设备上执行的浏览器上呈现信息资源时,能与插入在信息资源的文章的相邻段落之间的创意一起,呈现信息资源。在一些实施方式中,浏览器能执行脚本或软件构造来识别与稳定标识符相对应的容器节点,插入创意槽位并且使创意被检索以插入在创意槽位中。在一些实施方式中,内容插入模块134能被配置以使信息资源呈现在浏览器上,使得创意被显示在在位于相邻段落之间或与一个或多个段落相邻的槽位中。
数据处理系统110还能包括一个或多个数据库,诸如数据库140。数据库能被包括在数据处理系统110中。在一些实施方式中,数据库能远离数据处理系统放置但可由数据处理系统访问。数据库能存储大量内容。例如,数据库能存储一个或多个信息资源的DOM树、容器节点的列表、与容器节点相关联的标识符的列表、将标识符与容器节点相关联的映射、潜在标识符的内容标识分值,以及选择来识别信息资源的容器节点的稳定标识符的身份。应认识到数据处理系统110能包括一个或多个附加模块来提供本文所述的一些或所有功能组件以及其他附加功能组件。
图4是描绘与具有创意的登录页面一起呈现功能扩展所采取的步骤的一个实施方式的流程图。具体地,图4图示出描绘用于针对可能包括信息资源的主要内容的节点生成稳定标识符的方法400的流程图。处理器识别信息资源上可能包括主要内容的多个与内容有关的文档对象模型(DOM)节点(块405)。处理器确定包含所识别的与内容有关的DOM节点中的一个或多个DOM节点的一个或多个容器节点(块410)。处理器针对容器节点中的每一个,生成与容器节点相对应的一个或多个标识符(块415)。处理器针对所生成的标识符中的每一个,确定该标识符所对应的一个或多个容器节点(块420)。然后,处理器通过所生成的标识符,确定仅与包含与内容有关的DOM节点的容器节点相对应的标识符的子集(块425)。然后,处理器将子集的标识符中的一个标识符选择为稳定标识符(块430)。
更详细地说,处理器能识别信息资源上,可能包括主要内容的多个与内容有关的文档对象模型(DOM)节点(块405)。主要内容的示例能包括Web发布者所提供的帖子、文章或其他内容项。在一些实施方式中,处理器能检查信息资源的DOM树并且识别包括在信息资源中的所有与内容有关的文档对象模型(DOM)节点。在一些实施方式中,处理器能识别包括在信息资源内的每个节点并且确定所识别的节点是否是与内容有关的DOM节点。在一些实施方式中,处理器能通过对DOM树检查标签来识别节点。与节点相关联的标签能指示节点的类型。
在一些实施方式中,基于包括一个或多个规则的主要内容检测策略,处理器能确定节点为与内容有关的DOM节点。在一些实施方式中,如果节点是有效文本节点中的一个或多个,不是有效链接节点,包含多于预定字符,节点的上代不是段落,以及节点呈现的高度大于或等于段落的文本行的高度的2倍或DOM树中的先前有效文本节点为标题,处理器能确定节点为与内容有关的DOM节点。
处理器能确定包含所识别的与内容有关的DOM节点中的一个或多个的一个或多个容器节点(块410)。在一些实施方式中,处理器能针对每个与内容有关的DOM节点,确定包含所识别的与内容有关的DOM节点中的一个或多个的一个或多个容器节点。在一些实施方式中,如果节点满足两个标准,DOM树的节点可以被识别为容器节点。第一标准是节点与ARTICLE相对应或节点与DIV,INS或TD中的一个相对应,并且节点具有至少一个稳定类名。在一些实施方式中,如果类名满足不是以数字结束,类名可以被视为稳定。在一些实施方式中,如果类名不匹配下述正则表达式:/^.*[09]+$/,则被视为稳定。第二标准是节点以标题开始或节点为指示节点包括主要内容的帖子的层叠样式表(CSS)类的成员。指示节点为帖子的CSS类类型的示例能包括“post”或“typepost”。
在一些实施方式中,处理器能针对所识别的与内容有关的DOM节点中的每一个,确定离与内容有关的DOM节点最近的容器节点。在一些实施方式中,离指定与内容有关的DOM节点最近的容器节点能是包含与内容有关的DOM节点并且没有其他也包含与内容有关的DOM节点的容器节点的容器节点。在一些实施方式中,处理器能存储每个所识别的与内容有关的DOM节点的记录以及包含所识别的与内容有关的DOM节点的最近容器节点的身份。
在一些实施方式中,处理器能确定用于,被确定为包含一个或多个所识别的与内容有关的DOM节点的每个容器节点的任何等效容器节点。在一些实施方式中,如果节点的后代中的一个正好是容器节点,节点能被视为等效容器上代节点,DOM节点正好包含与后代容器节点相同的有效文本节点集合并且节点满足用于确定节点为容器节点的两个标准。
在一些实施方式中,处理器能维护容器节点的列表。主要内容检测模块能包括针对列表中的与内容有关的DOM节点的每一个所确定的容器节点的每一个。在一些实施方式中,处理器还能包括针对每个容器节点所确定的等效容器上代节点的每一个。在一些实施方式中,处理器能从列表移除任何重复节点使得容器节点的列表包括所确定的容器节点中的每一个以及与所确定的容器节点相对应的任何等效的容器上代节点。
处理器能针对容器节点中的每一个,生成与容器节点相对应的一个或多个标识符(块415)。在一些实施方式中,处理器能针对包括在容器节点的列表中的容器节点中的每一个,生成与容器节点相对应的一个或多个标识符。在一些实施方式中,稳定标识符生成模块能被配置成针对包括在列表中的容器节点中的每一个,生成与容器节点相对应的每个标识符。
在一些实施方式中,处理器能基于与处理器为其生成标识符的容器节点相关联的标签,来生成标识符。在一些实施方式中,处理器能基于与容器节点相关联的类名,来生成标识符。在一些实施方式中,处理器能根据包括一个或多个规则的标识符生成策略,来生成标识符。在一些实施方式中,为根据标识符生成策略,来生成用于给定容器节点的标识符,处理器识别与容器节点相关联的标签的类型以及与标签相关联的类名。在一些实施方式中,如果容器节点与ARTICLE标签类型相对应,处理器能生成仅具有标签名的标识符。在一些实施方式中,标识符的标签名能是ARTICLE。在一些实施方式中,如果ID是稳定的,处理器能生成具有标签名和ID的标识符。稳定的ID能是不以数字结束的任何ID。在一些实施方式中,如果容器节点与除ARTICLE外的任何标签类型相对应,处理器能生成具有标签名和类名的标识符。在一些实施方式中,标识符能包括标签类型和单一稳定类名。在一些实施方式中,稳定类名能与不以数字结束的类名相对应。
在一些实施方式中,处理器能维持针对包括在容器节点的列表中的容器节点所生成的标识符的列表。在一些实施方式中,处理器可以移除针对容器节点所生成的标识符的列表中的任何重复。在一些实施方式中,处理器能基于优选策略,排序针对容器节点所生成的标识符。在一些实施方式中,优选策略能包括用于排序潜在标识符的一个或多个规则。
在一些实施方式中,处理器能按最高优选到最低优选的顺序,来排列标识符的列表中的多个所生成的标识符。处理器能同时比较两个或多个标识符并且确定哪一标识符具有较高优选。在一些实施方式中,处理器能首先确定两个标识符中的任何一个是否仅包括标签名。仅具有标签名的标识符优选于具有标签名和ID的标识符或具有标签名和类名的标识符。同样地,如果标识符中的一个仅具有标签名,该标识符的排名将高于不仅仅具有标签名的标识符。如果处理器确定被比较的标识符中的任何一个均不仅仅包括标签名,处理器能确定两个标识符中的任何一个是否包括标签名和ID。具有标签名和ID的标识符优选于具有标签名而不具有ID的标识符。同样地,如果标识符中的一个具有标签名和ID,该标识符排名将高于不具有ID的标识符。如果处理器确定标识符中的任何一个均不包括标签名和ID,处理器确定两个标识符中的任何一个是否包括标签名和类名。具有标签名和类名的标识符将优选于具有标签名而不具有类名的标识符。同样地,如果标识符中的一个具有标签名和类名,处理器将使该标识符的排名高于不具有类名的标识符。如果处理器识别两个标识符均包括标签名和类名,处理器能确定哪一标识符具有更优选类名。具有更优选类名的标识符优选于具有较低优选类名的标识符。同样地,如果标识符中的一个具有标签名和更优选类名,处理器将使该标识符的排名高于不具有更优选类名的标识符。在一些实施方式中,类名“post-container”更优选于类名“post”和“type-post”,以及类名“post”更优选于类名“type-post”。如果处理器识别标识符中的任何一个均不包括具有优选类名的标签名,处理器能确定具有更长类名的标识符优选于具有较短类名的标识符。同样地,具有更长类名的标识符排名将高于具有更短类名的标识符。
处理器能针对所生成的标识符中的每一个,确定标识符与其对应的一个或多个容器节点(块420)。在一些实施方式中,处理器能将由处理器所生成的标识符中的每一个与容器节点相关联以确定仅与包含与内容有关的DOM节点的容器节点相对应的标识符的子集。在一些实施方式中,处理器能将每个所生成的标识符映射到处理器可能通过其生成标识符的所有容器节点。这是因为多个容器节点可能具有相同的标签类型或ID或类名,这导致具有相同标签类型或ID或类名的容器节点生成相同的标识符。在一些实施方式中,标识符能用作被构造成将标识符映射到容器节点中的每一个的映射中的键。在一些实施方式中,处理器能针对每个标识符,在信息资源的DOM树中执行查找来识别能由标识符引用的所有节点。
处理器能通过所生成的标识符,确定仅与包含与内容有关的DOM节点的容器节点相对应的标识符的子集(块425)。在一些实施方式中,处理器能针对每个标识符,在信息资源的DOM树中执行查找来识别能由标识符引用的所有节点。在一些实施方式中,能由标识符引用的节点包括具有将使处理器基于节点的特性来生成标识符的特性(例如,标签类型、ID、类名)的节点。针对与标识符相对应的所识别的节点中的每一个,处理器能确定所识别的节点是在由处理器维护的容器节点的列表中还是该节点满足用于识别为容器节点的标准。响应于确定所识别的节点不在容器节点的列表上或不满足用于识别容器节点的标准,处理器不会将该标识符视为稳定标识符,并且从标识符的列表移除该标识符。相反,响应于确定所识别的节点在容器节点的列表上或满足用于被识别为容器节点的标准,处理器能将该标识符包括为潜在稳定标识符,并且同样地,确定用于该标识符的内容标识分值。内容标识分值能指示标识符能多有效地识别信息资源上的帖子、文章或其他主要内容。
处理器能将子集的标识符中的一个选择为稳定标识符(块430)。在一些实施方式中,处理器能针对潜在标识符中的每一个,确定内容标识分值。在一些实施方式中,处理器能基于标识符所关联的容器节点的内容数量来确定内容标识分值。在一些实施方式中,处理器能基于可能包括主要内容(例如,段落节点)、包含在与标识符相关联的容器节点中的节点中的第一多个字符以及包括在与标识符相关联的容器节点内的第二多个字符,确定每个标识符的内容标识分值。在一些实施方式中,处理器能基于被包含在与标识符相关联的容器节点中的可能包括主要内容的第一多个节点和包括在信息资源内的第二多个段落,确定每个标识符的内容标识分值。在一些实施方式中,处理器能基于包含在与标识符相关联的容器节点中的可能包括主要内容的节点的第一多个字符和包括在包括在信息资源内的所有节点内的可能包括主要内容的第二多个字符,确定每个标识符的内容标识分值。
处理器能识别具有最大内容标识分值的标识符。然后,处理器能将具有最高内容标识分值的标识符选择为用于识别包含可能包括主要内容的节点的容器节点的稳定标识符。在一些实施方式中,处理器能利用信息资源存储稳定标识符的身份。以这种方式,处理器能使用能识别与可能包括主要内容的帖子或文章或节点相对应的容器节点的稳定标识符,来识别可能包括主要内容的帖子或文章或节点。在一些实施方式中,处理器能响应于接收派发信息资源的请求,将创意插入在与稳定标识符相对应的相邻容器节点之间中。
下文是信息资源的DOM树的一部分的实施方式。如下所示,节点中的一些后紧跟指示节点的类型的注释。为便于引用,注释以//开始。
使用上述DOM树,处理器能基于容器节点,生成下述标识符。处理器能针对容器节点生成下述标识符。
通过考虑上代容器节点,处理器能将标识符的列表扩展到下述四个标识符:
然后,处理器能丢弃{tagName:'DIV',className:'left-align'}标识符,因为它是不包含可能包含主要内容的节点的容器节点。特别地,
然后,处理器将根据优选顺序,排列剩余的三个标识符,并且将{tagName:'DIV',className:'content-entry'}标识符选择为稳定标识符,因为该标识符具有最高分值。
图5示出了根据一些实施方式的说明性计算机系统500的一般架构,其可以被用来实现本文所讨论的任何计算机系统(包括系统100及其组件,诸如主要内容检测模块130、稳定标识符生成模块132和内容插入模块134)。计算机系统500可以用来经由网络105提供信息用于显示。图5的计算机系统500包括被通信地耦合到存储器525的一个或多个处理器520、一个或多个通信接口505以及一个或多个输出设备510(例如,一个或多个显示单元)和一个或多个输入设备515。处理器520可以被包括在数据处理系统110或系统100的其它组件中,诸如主要内容检测模块130、稳定标识符生成模块132和内容插入模块134。
在图5的计算机系统500中,存储器525可包括任何计算机可读存储介质,并可存储计算机指令,诸如用于实现用于相应系统的本文所述各种功能的处理器可执行指令以及与之相关、从而生成或经由通信接口或输入设备(如果存在的话)所接收的任何数据。再次地参考图1的系统100,数据处理系统110能包括存储器525以存储与一个或多个创意、针对该创意所生成的一个或多个信息资源以及为呈现与创意相关联的登录页面的内容而生成的一个或多个函数扩展有关的信息。存储器525可以包括数据库140。图5中所示的处理器520可用来执行存储在存储器525中的指令,并且在这样做时,也可从存储器读取或向其写入根据指令的执行而处理和或生成的各种信息。
图5中所示的计算机系统500的处理器520也可被通信耦合到或控制通信接口505以根据指令的执行来发射或接收各种信息。例如,通信接口505可被耦合到有线或无线网络、总线或其它通信装置,并且因此可允许计算机系统500向或从其它设备(例如,其它计算机系统)发射信息或接收信息。虽然在图1的系统中未明确地示出,但一个或多个通信接口促进系统100的组件之间的信息流动。在一些实施方式中,通信接口可被配置成(例如,经由各种硬件组件或软件组件)提供网站作为计算机系统500的至少某些方面的访问门户。通信接口505的示例包括用户界面(例如,网页),通过该用户界面,用户能与数据处理系统110通信。
例如,可将图5中所示的计算机系统500的输出设备510提供成允许结合指令的执行来查看或者感知各种信息。例如,可将输入设备515提供成允许用户进行手动调整、进行选择、录入数据或以多种方式中的任何一个在指令执行期间与处理器相交互。在本文中进一步提供了与可被用于在本文中讨论的各种系统的通用计算机系统架构有关的附加信息。
可以用数字电路或者用在有形介质上嵌入的计算机软件、固件或硬件(包括在本说明书中公开的结构及其结构等价物)或用其中的一个或多个的组合来实现在本说明书中描述的操作和主题的实施方式。在本说明书中描述的主题的实施方式可以被实现为一个或多个计算机程序,即在计算机存储介质上编码以用于由数据处理装置执行或控制其操作的计算机程序指令的一个或多个模块。可以将程序指令编码在人工生成的传播信号上,该信号例如被生成以对信息进行编码以用于传输到适当的接收器装置以供数据处理装置执行的机器生成的电、光或电磁信号。计算机存储介质可以是计算机可读存储设备、计算机可读存储基片、随机或串行存取存储器阵列或设备或其中的一个或多个的组合或者被包括在其中。此外,虽然计算机存储介质不是传播信号,但计算机存储介质可以是在人工生成的传播信号中编码的计算机程序的源或目的地。计算机存储介质还可以是一个或多个单独的物理组件或介质(例如,多个CD、盘或其它存储设备)或被包括在其中。
可在智能电视模块(或所连接的电视模块)上实现在本文中公开的特征,该智能电视模块可包括被配置成将互联网连接与更传统电视节目源(例如,经由电缆、卫星、广播或其它信号所接收的)集成的处理模块。智能电视模块可在物理上被合并到电视机中,或者可包括单独设备,诸如机顶盒、蓝光或其它数字媒体播放器、游戏机、旅馆电视系统及其它陪伴设备。智能电视模块可被配置成允许查看者在web上、在本地有线TV频道上、在卫星TV频道上搜索和查找视频、电影、照片及其它内容或者存储在本地硬盘驱动上。机顶盒(STB)或机顶单元(STU)可包括信息电器设备,其可包含调谐器并连接到电视机和外部信号源,将信号转变成然后在电视屏或其它显示设备上所显示的内容。还可将智能电视模块配置成提供主屏幕或顶级屏幕,其包括用于多个不同应用的图标,该应用诸如web浏览器和多个流媒体服务、所连接的电缆或卫星媒体源、其它web“频道”等。智能电视模块可进一步被配置成向用户提供电子节目指南。智能电视模块的陪伴应用可以可在移动计算设备上操作向用户提供与可用程序有关的附加信息,以允许用户控制智能电视模块等。在替选实施方式中,可在膝上型计算机或其它个人计算机、智能电话、其它移动电话、手持式计算机、平板PC或其它计算设备上实现特征。
在本说明书中描述的操作可以被实现为由数据处理装置对存储在一个或多个计算机可读存储设备或从其它源所接收的数据执行的操作。
术语“数据处理装置”、“数据处理系统”、“用户设备”或“计算设备”涵盖用于处理数据的所有种类的装置、设备以及机器,举例来说包括可编程处理器、计算机、片上系统或前述中的多个或其组合。该装置可以包括专用逻辑电路,例如,FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除硬件之外,该装置还可以包括创建用于正在讨论中的计算机程序的执行环境的代码,例如构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行时环境、虚拟机或其中的一个或多个的组合的代码。该装置和执行环境可以实现各种不同的计算模型基础设施,诸如web服务、分布式计算和网格计算基础设施。主要内容检测模块130、稳定标识符生成模块132和内容插入模块134可以包括或共享一个或多个数据处理装置、计算设备或处理器。
可以以任何形式的编程语言来编写计算机程序产品(也称为程序、软件、软件应用、脚本或代码),包括编译或解释型语言、声明性或过程语言,并且其可以以任何形式部署,包括为独立程序或模块、组件、子例程、对象或适合于在计算环境中使用的其它单元。计算机程序可以但不需要与文件系统中的文件相对应。可以将程序存储在保持其他程序或数据(例如,存储在标记语言文档中的一个或多个脚本)的文件的一部分中、专用于正在讨论中的程序的单个文件中或多个协同文件中(例如,存储一个或多个模块、子程序或代码部分的文件)。此外,可以将计算机程序部署成在位于一个位置处或跨多个位置分布并被通信网络互连的一个计算机或多个计算机上执行。
在本说明书中描述的过程和逻辑流程可以由执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行动作的一个或多个可编程处理器执行。该过程和逻辑流程还可以由专用逻辑电路,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)执行,并且可将装置实现为该专用逻辑电路。
例如,适合于执行计算机程序的处理器包括通用和专用微处理器两者以及任何种类的数字计算机的任何一个或多个处理器。一般地,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的必需组件是用于根据指令来执行动作的处理器和用于存储指令和数据的一个或多个存储器设备。一般地,计算机还将包括用于存储数据的一个或多个大容量存储器件(例如,磁盘、磁光盘或光盘)或被与之操作耦合以从其接收或向其传递数据或两者。然而,计算机不需要具有这样的设备。此外,可以将计算机嵌入另一设备中,例如,移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏机、全球定位系统(GPS)接收器或便携式存储设备(例如,通用串行总线(USB)闪速驱动)。适合于存储计算机程序指令和数据的设备包括所有形式的非易失性存储器、介质和存储设备,举例来说,包括半导体存储器设备,例如EPROM、EEPROM和闪速存储器设备;磁盘,例如内部硬盘或可移动盘;磁光盘;以及CD-ROM和DVD-ROM磁盘。可用专用逻辑电路来补充处理器和存储器或合并在其中。
为了提供与用户的交互,可以将在本说明书中描述的主题的实施方式实现于计算机上,该计算机具有用于向用户显示信息的例如CRT(阴极射线管)、等离子体或LCD(液晶显示器)监视器的显示设备及键盘和指针设备,诸如鼠标或轨迹球,用户可以通过其来向计算机提供输入。也可以使用其它种类的设备来提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感觉反馈,例如视觉反馈、听觉反馈或触觉反馈;可以以任何形式接收来自用户的输入,包括声学、话音或触觉输入。另外,计算机可以通过向用户所使用的设备发送文档和从其接收文档来与用户交互;例如,通过响应于从web浏览器所接收的请求而向用户的客户端设备上的web浏览器发送网页。
可以将在本说明书中描述的主题的实施方式实现于计算系统中,该计算系统包括后端组件(例如,作为数据服务器),或者包括中间件组件(例如,应用服务器),或者包括前端组件,例如具有用户可以通过其与在本说明书中描述的主题的实施方式交互的图形用户界面或web浏览器的客户端计算机,或者一个或多个这样的后端、中间件或前端组件的任何组合。系统的组件可被数字数据通信的任何形式或介质互连,例如,通信网络。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)、互联网络(例如,互联网)和对等网络(例如,对等点对点网络)。
诸如系统500或系统100的计算系统可以包括客户端和服务器。例如,数据处理系统110可以包括一个或多个数据中心或服务器场中的一个或多个服务器。客户端和服务器一般地相互远离且通常通过通信网络交互。客户端和服务器的关系借助于在相应计算机上运行且相互具有客户端服务器关系的计算机程序发生。在一些实施方式中,服务器向客户端设备发射数据(例如,HTML页面)(例如,出于向与客户端设备相交互的用户显示数据和从其接收用户输入的目的)。可以在服务器处从客户端设备接收在客户端设备处所生成的数据(例如,用户交互的结果)。
虽然本说明书包含许多特定实施方式细节,但不应将这些理解为对任何发明或可要求保护的内容的范围的限制,而是作为特定于本文所述系统和方法的特定实施方式的特征的描述。还可在单个实施方式中以组合方式实现在本说明书中在单独的实施方式的场境中描述的某些特征。相反地,还可以单独地在多个实施方式中或者以任何适当的子组合来实现如在单个实施方式的场境中描述的各种特征。此外,虽然上文可将特征描述为以某些组合方式作用且甚至在最初这样要求保护,但在某些情况下可以将来自要求保护的组合的一个或多个特征从该组合去除,并且要求保护的组合可针对子组合或子组合的变体。
类似地,虽然在图中按照特定顺序来描绘操作,但不应将这理解为要求按照所示的特定顺序或按照连续顺序来执行这样的操作,或者执行所有所示操作,以实现期望的结果。在一些情况下,可以按照不同的顺序来执行在权利要求中记载的动作并仍实现期望的结果。另外,在附图中描述的过程不一定要求所示的特定顺序或连续顺序以实现期望结果。
在某些情况下,多任务和并行处理可以是有益的。此外,不应将上述实施方式中的各种系统组件的分离理解为在所有实施方式中都要求这样的分离,并且应理解的是一般地可以将所述程序组件和系统在单个软件产品中集成在一起或者封装成多个软件产品。例如,主要内容检测模块130、稳定标识符生成模块132和内容插入模块134可以是数据处理系统110的一部分、单个模块、具有一个或多个处理模块的逻辑设备、一个或多个服务器或搜索引擎的一部分。
现在已描述了某些说明性实施方式和实施方式,但显而易见的是前述内容是说明性而非限制性的,是以示例的方式呈现的。具体地,虽然在本文中呈现的许多示例涉及方法动作或系统元素的特定组合,但可以以其它方式将那些动作和那些元素组合以达到相同的目的。仅结合一个实施方式讨论的动作、元素和特征不旨在被从其它实施方式或实施方式中的类似角色排除。
本文所使用的短语和术语是出于描述的目的且不应视为是限制性的。“包括(including)”、“包括(comprising)”、“具有(having)”、“包含(containing)”、“涉及(involving)”、“以...为特征(characterized by)”、“特征在于(characterized inthat)”及其在本文中的变体的使用旨在涵盖其后列出的项目、其等价物和附加项目以及由其后排他地列出的项目组成的替选实施方式。在一个实施方式中,本文所述的系统和方法由所述元素、动作或组件中的一个、多于一个的组合或全部组成。
对在本文中被以单数引用的系统和方法的实施方式或元素或动作的任何引用也可以涵盖包括多个这些元素的实施方式,并且在本文中对任何实施方式或元素或动作的复数形式的任何引用也可涵盖仅包括单个元素的实施方式。以单数或复数形式的引用不旨在使本公开的系统或方法、其组件、动作或元素限于单数或复数配置。基于任何信息、动作或元素的对任何动作或元素的引用可包括其中该动作或元素至少部分地基于任何信息、动作或元素的实施方式。
在本文中公开的任何实施方式可被与任何其它实施方式组合,以及对“实施方式”、“一些实施方式”、“替选实施方式”、“各种实施方式”、“一个实施方式”等的引用不一定是互斥的,并且旨在指示结合该实施方式所述的特定特征、结构或特性可被包括在至少一个实施方式中。如本文所使用的这样的术语不一定全部引用相同实施方式。可以与在本文中公开的方面和实施方式一致的任何方式包括性地或排他性地将任何实施方式与任何其它实施方式组合。
可将对“或”的引用理解为包括性的,使得使用“或”所述的任何术语可指示所述术语中的单个、多于一个以及全部中的任何一个。
在附图、详细描述或任何权利要求中的技术特征后跟附图标记的情况下,该附图标记是出于增加附图、详细描述以及权利要求的可理解性的唯一目的而包括的。因此,附图标记及其不存在都对任何要求的元素的范围没有任何限制性效果。
在不脱离其特性的情况下可用其它特定形式来体现本文所述的系统和方法。虽然在本文中所提供的示例涉及广告程序,但本文所述的系统和方法可以应用于任何信息资源。前述实施方式是说明性的而非对所述系统和方法的限制。本文所述的系统和方法的范围因此由所附权利要求而不是前述描述指示,并且在权利要求的等价物的意义和范围内的改变被涵盖在其中。

Claims (20)

1.一种生成用于可能包括信息资源的主要内容的节点的稳定标识符的方法,包括:
由处理器基于包括一个或多个规则的主要内容检测策略来识别信息资源上的多个与内容有关的文档对象模型(DOM)节点;
由所述处理器确定包含所识别的与内容有关的DOM节点中的一个或多个DOM节点的一个或多个容器节点;
针对所述容器节点中的每一个,生成与所述容器节点相对应的一个或多个标识符;
针对所生成的标识符中的每一个,确定所述标识符所对应的一个或多个容器节点;
从所生成的标识符识别仅与包含所述与内容有关的DOM节点的容器节点相对应的所生成的标识符的子集;以及
由所述处理器将所述子集的所述标识符中的一个选择为稳定标识符。
2.如权利要求1所述的方法,其中,确定包含所述多个与内容有关的DOM节点的所述容器节点包括:针对所述多个与内容有关的DOM节点中的一个与内容有关的DOM节点,确定所述容器节点中离由所述容器节点所包含的与内容有关的DOM节点最近的容器节点。
3.如权利要求2所述的方法,其中,确定离所述与内容有关的DOM节点最近的容器节点包括:识别i)以标题开始、或ii)所述节点是指示所述节点是帖子的层叠样式表(CSS)类的成员的一个或多个容器节点;以及所述节点i)具有包括ARTICLE的标签名、或ii)所述节点具有包括DIV、INS或TD的标签名并且所述节点具有至少一个稳定类名。
4.如权利要求1所述的方法,其中,将所述子集的所述标识符中的一个标识符选择为所述稳定标识符包括:识别仅包括标签名的所述子集的标识符。
5.如权利要求1所述的方法,其中,将所述子集的所述标识符中的一个标识符选择为所述稳定标识符包括:
针对所述子集的每个标识符,基于潜在标识符所关联的所述容器节点的内容的数目,确定指示所述标识符识别潜在标识符的所述信息资源上的主要内容的能力的内容标识分值;以及
基于所述子集的所述标识符的所述内容标识分值,将所述子集的所述标识符中的一个标识符选择为所述稳定标识符。
6.如权利要求5所述的方法,其中,确定所述子集中的每个标识符的内容标识分值包括:确定在与所述子集的所述标识符相关联的所述容器节点内所包括的段落中的第一字符数和在与所述子集的所述标识符相关联的所述容器节点内所包括的第二字符数。
7.如权利要求5所述的方法,其中,确定所述子集中的每个标识符的所述内容标识分值包括:确定在与所述子集的所述标识符相关联的所述容器节点内所包括的第一段落数和在所述信息资源内所包括的第二段落数。
8.如权利要求5所述的方法,其中,确定所述子集中的每个标识符的所述内容标识分值包括:确定在与所述子集的所述标识符相关联的所述容器节点内所包括的段落中的第一字符数和在所述信息资源内所包括的所有段落内所包括的第二字符数。
9.如权利要求1所述的方法,进一步包括由所述处理器利用所述信息资源来存储所述稳定标识符的身份。
10.如权利要求9所述的方法,进一步包括响应于接收派发所述信息资源的请求,将创意插入在与所述稳定标识符相对应的相邻容器节点之间中。
11.一种生成用于可能包括信息资源的主要内容的节点的稳定标识符的系统,包括数据处理系统,所述数据处理系统被配置为:
基于包括一个或多个规则的主要内容检测策略来识别信息资源上的多个与内容有关的文档对象模型(DOM)节点;
确定包含所识别的与内容有关的DOM节点中的一个或多个DOM节点的一个或多个容器节点;
针对所述容器节点中的每一个,生成与所述容器节点相对应的一个或多个标识符;
针对所生成的标识符中的每一个,确定所述标识符所对应的一个或多个容器节点;
从所生成的标识符识别仅与包含所述与内容有关的DOM节点的容器节点相对应的所生成的标识符的子集;以及
将所述子集的所述标识符中的一个选择为稳定标识符。
12.如权利要求11所述的系统,其中,为确定包含所述多个与内容有关的DOM节点的所述容器节点,所述数据处理系统被配置为:针对所述多个与内容有关的DOM节点中的一个与内容有关的DOM节点,确定所述容器节点中离由所述容器节点所包含的与内容有关的DOM节点最近的容器节点。
13.如权利要求11所述的系统,其中,为确定离所述与内容有关的DOM节点最近的容器节点,所述数据处理系统被配置为:识别i)以标题开始、或ii)所述节点是指示所述节点是帖子的层叠样式表(CSS)类的成员的一个或多个容器节点;以及所述节点i)具有包括ARTICLE的标签名、或ii)所述节点具有包括DIV、INS或TD的标签名并且所述节点具有至少一个稳定类名。
14.如权利要求13所述的系统,其中,所述稳定类名包括不以数字结束的任何类名。
15.如权利要求11所述的系统,其中,为将所述子集中的所述标识符中的一个选择为所述稳定标识符,所述数据处理系统被配置为识别潜在标识符中仅包括标签名的标识符。
16.如权利要求11所述的系统,其中,为将所述子集中的所述标识符中的一个选择为所述稳定标识符,所述数据处理系统被进一步配置为:
针对所述子集的每个标识符,基于所述子集中的所述标识符所关联的所述容器节点的内容的数目,确定指示所述子集中的所述标识符识别主要内容的能力的内容标识分值;以及
基于所述子集的所述标识符的所述内容标识分值,将所述子集的所述标识符中的一个选择为所述稳定标识符。
17.如权利要求16所述的系统,其中,为确定所述子集中的每个标识符的内容标识分值,所述数据处理系统被配置为确定在与所述子集的所述标识符相关联的所述容器节点内所包括的段落中的第一字符数和在与所述子集的所述标识符相关联的所述容器节点内所包括的第二字符数。
18.如权利要求16所述的系统,其中,所述数据处理系统被进一步配置为利用所述信息资源来存储所述稳定标识符的身份。
19.如权利要求16所述的系统,其中,所述数据处理系统被进一步配置为:响应于接收派发所述信息资源的请求,将创意插入在与所述稳定标识符相对应的相邻容器节点之间中。
20.一种其上存储有计算机可执行指令的计算机可读存储介质,所述指令在由计算机执行时使得所述计算机:
基于包括一个或多个规则的主要内容检测策略来识别信息资源上的多个与内容有关的文档对象模型(DOM)节点;
确定包含所识别的与内容有关的DOM节点中的一个或多个DOM节点的一个或多个容器节点;
针对所述容器节点中的每一个,生成与所述容器节点相对应的一个或多个标识符;
针对所生成的标识符中的每一个,确定所述标识符所对应的一个或多个容器节点;
从所生成的标识符来识别仅与包含所述与内容有关的DOM节点的容器节点相对应的所生成的标识符的子集;以及
将所述子集的所述标识符中的一个选择为稳定标识符。
CN201580019959.2A 2014-04-16 2015-04-10 生成用于主要内容的稳定标识符的方法和系统 Active CN106233284B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/254,349 2014-04-16
US14/254,349 US9665617B1 (en) 2014-04-16 2014-04-16 Methods and systems for generating a stable identifier for nodes likely including primary content within an information resource
PCT/US2015/025326 WO2015160653A1 (en) 2014-04-16 2015-04-10 Methods and systems for generating a stable identifier for nodes likely including primary content within an information resource

Publications (2)

Publication Number Publication Date
CN106233284A true CN106233284A (zh) 2016-12-14
CN106233284B CN106233284B (zh) 2019-08-16

Family

ID=53016762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580019959.2A Active CN106233284B (zh) 2014-04-16 2015-04-10 生成用于主要内容的稳定标识符的方法和系统

Country Status (5)

Country Link
US (1) US9665617B1 (zh)
EP (1) EP3132361A1 (zh)
JP (1) JP6438494B2 (zh)
CN (1) CN106233284B (zh)
WO (1) WO2015160653A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10409884B2 (en) * 2014-07-02 2019-09-10 The Nielsen Company (Us), Llc Methods and apparatus to identify sponsored media in a document object model
US20170147534A1 (en) * 2015-11-23 2017-05-25 Microsoft Technology Licensing, Llc Transformation of third-party content for native inclusion in a page
US10210144B2 (en) * 2016-08-16 2019-02-19 Adobe Inc. Creation and display of a webpage with alternative layouts for different webpage widths
US10523662B2 (en) * 2016-09-16 2019-12-31 Sap Se In-memory database advanced programming model
CN107818163B (zh) * 2017-11-01 2019-03-29 平安科技(深圳)有限公司 页面展示方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101202746A (zh) * 2006-12-15 2008-06-18 华为技术有限公司 节点标识符生成方法及负载均衡方法及装置
CA2706743A1 (en) * 2010-06-30 2010-09-08 Ibm Canada Limited - Ibm Canada Limitee Dom based page uniqueness indentification
CN102460432A (zh) * 2009-06-30 2012-05-16 惠普开发有限公司 选择性内容提取
US20120124464A1 (en) * 2010-11-12 2012-05-17 Dong-Woo Im Apparatus and method for extracting cascading style sheet rules
CN102473180A (zh) * 2009-07-30 2012-05-23 株式会社东芝 接收装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3982454B2 (ja) * 2003-05-27 2007-09-26 ソニー株式会社 携帯型電子機器、ウェブページ処理方法およびプログラム
US20050108630A1 (en) * 2003-11-19 2005-05-19 Wasson Mark D. Extraction of facts from text
US7937413B2 (en) * 2004-05-04 2011-05-03 International Business Machines Corporation Self-adaptive prefix encoding for stable node identifiers
US20090234861A1 (en) * 2005-09-14 2009-09-17 Jorey Ramer Using mobile application data within a monetization platform
US20070073756A1 (en) * 2005-09-26 2007-03-29 Jivan Manhas System and method configuring contextual based content with published content for display on a user interface
US8181107B2 (en) * 2006-12-08 2012-05-15 Bytemobile, Inc. Content adaptation
GB0906639D0 (en) * 2009-04-17 2009-06-03 Contextured Ltd Apparatus and method for generating advertisements
WO2011123981A1 (en) * 2010-04-07 2011-10-13 Google Inc. Detection of boilerplate content
WO2012012916A1 (en) * 2010-07-30 2012-02-02 Hewlett-Packard Development Company, L.P. Selection of main content in web pages
WO2012055067A1 (en) * 2010-10-26 2012-05-03 Hewlett-Packard Development Company, L.P. Extraction of content from a web page
US8762332B2 (en) * 2011-03-04 2014-06-24 Scribble Technologies Inc. Systems and method for facilitating the synchronization of data on multiple user computers
US9152730B2 (en) * 2011-11-10 2015-10-06 Evernote Corporation Extracting principal content from web pages
US8612450B1 (en) * 2012-11-20 2013-12-17 Limelight Networks, Inc. Content tagging using multi-node hierarchical content assignments

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101202746A (zh) * 2006-12-15 2008-06-18 华为技术有限公司 节点标识符生成方法及负载均衡方法及装置
CN102460432A (zh) * 2009-06-30 2012-05-16 惠普开发有限公司 选择性内容提取
CN102473180A (zh) * 2009-07-30 2012-05-23 株式会社东芝 接收装置
CA2706743A1 (en) * 2010-06-30 2010-09-08 Ibm Canada Limited - Ibm Canada Limitee Dom based page uniqueness indentification
US20120124464A1 (en) * 2010-11-12 2012-05-17 Dong-Woo Im Apparatus and method for extracting cascading style sheet rules

Also Published As

Publication number Publication date
CN106233284B (zh) 2019-08-16
JP6438494B2 (ja) 2018-12-12
JP2017519273A (ja) 2017-07-13
EP3132361A1 (en) 2017-02-22
US9665617B1 (en) 2017-05-30
WO2015160653A1 (en) 2015-10-22

Similar Documents

Publication Publication Date Title
KR102278657B1 (ko) 웹 페이지에 대한 컨텐츠 아이템에 대한 사이즈 자동 결정
CN103597469B (zh) 集成开发环境中的实况浏览器工具
CN106415537B (zh) 将本地应用搜索结果插入到web搜索结果中
US11017154B2 (en) Methods and systems for identifying styles of properties of document object model elements of an information resource
US9535887B2 (en) Creation of a content display area on a web page
US20150220492A1 (en) Systems and methods for integrating dynamic content into electronic media
US20140047413A1 (en) Developing, Modifying, and Using Applications
US20120054143A1 (en) Systems and methods for rule based inclusion of pixel retargeting in campaign management
CN108811514A (zh) 用于检测在客户端设备上执行的应用不当地实施对内容项的呈现的系统和方法
WO2007078283A2 (en) Distributed content exchange and presentation system
US20150066665A1 (en) Methods and systems for providing third-party content on a web page
CN109345279A (zh) 动态内容项目创建
CN106233284B (zh) 生成用于主要内容的稳定标识符的方法和系统
US9830304B1 (en) Systems and methods for integrating dynamic content into electronic media
CN104798094B (zh) 确定内容项目显示环境的配置
US10049170B1 (en) Methods and systems for selectively preventing third-party content from being displayed using undefined publisher identifier
CN106471497A (zh) 使用上下文的辅助浏览
WO2007062026A2 (en) Distributed content exchange and presentation system
CN108738362A (zh) 基于多层级引用符数据生成应用的深度链接
CN106464723A (zh) 本机应用内容验证
US10210001B2 (en) Automatic execution of objects in a user interface
Bhanu et al. Assessing Completeness of a WEB site from Quality Perspective.
Nixon et al. Semantics enhancing augmented reality and making our reality smarter
US9916292B2 (en) Method of identifying a target object on a web page
González-Tato et al. Towards a Collection of Gadgets for an iGoogle e-learning platform

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: American California

Applicant after: Google limited liability company

Address before: American California

Applicant before: Google Inc.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant