CN113330474A - 用于提供内容候选的系统和方法 - Google Patents

用于提供内容候选的系统和方法 Download PDF

Info

Publication number
CN113330474A
CN113330474A CN201980088855.5A CN201980088855A CN113330474A CN 113330474 A CN113330474 A CN 113330474A CN 201980088855 A CN201980088855 A CN 201980088855A CN 113330474 A CN113330474 A CN 113330474A
Authority
CN
China
Prior art keywords
content
vector
distance
candidate
candidates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980088855.5A
Other languages
English (en)
Inventor
乔纳森·康利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN113330474A publication Critical patent/CN113330474A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本公开针对一种用于提供内容候选的方法。该方法包括在第一数据结构中维护包括网页的域的第一数据集。该方法包括在第二数据结构中维护包括内容候选子集的第二数据集。该方法包括基于网页的域的语义内容来生成第一向量。该方法包括基于从内容候选子集所选择的内容候选的语义内容来生成第二向量。该方法包括确定在学习空间上的在第一向量和第二向量之间的距离。该方法包括响应于该距离满足距离阈值,将内容候选与网页的域相关联。

Description

用于提供内容候选的系统和方法
背景技术
在诸如互联网的计算机网络环境中,第三方内容提供商提供内容项以在终端用户计算设备上显示。这些第三方内容项(例如广告(ad))可以链接到与第三方内容提供商相关联的网页。这些第三方内容项可以包括识别提供该内容项的第三方内容提供商的内容。
发明内容
在一个方面,本公开涉及一种用于提供内容候选的方法。所述方法可以包括在系统的第一数据结构中维护包括网页的域的第一数据集。所述方法可以包括在所述系统的第二数据结构中维护包括内容候选子集的第二数据集。所述方法可以包括由所述系统基于所述网页的所述域的语义内容来生成第一向量。所述方法可以包括由所述系统基于从所述内容候选子集所选择的第一内容候选的语义内容来生成第二向量。所述方法可以包括由所述系统基于从所述内容候选子集所选择的第二内容候选的语义内容来生成第三向量。所述方法可以包括由所述系统确定在学习空间上的在所述第一向量和所述第二向量之间的第一距离。所述方法可以包括由所述系统响应于所述第一距离满足距离阈值而将所述第一内容候选与所述网页的所述域相关联。所述方法可以包括由所述系统确定在所述学习空间上的在所述第一向量和所述第三向量之间的第二距离。所述方法可以包括由所述系统响应于所述第二距离不满足所述距离阈值而将所述第二内容候选与所述网页的所述域解除关联。
在一些实现方式中,维护包括多个内容候选的第二数据集还可以包括由所述系统接收包括所述内容候选子集的多个内容候选。这样的操作还可以包括由所述系统针对所述多个内容候选中的每一个监视与所述网页相关联的相应点进率。这样的操作还可以包括由所述系统基于确定所述内容候选子集中的每一个的相应点进率满足比率阈值来选择所述内容候选子集。这样的操作还可以包括在所述第二数据结构中存储所述内容候选子集。
在一些实现方式中,基于所述网页的所述域的语义内容生成第一向量还可以包括由所述系统经由自然语言处理技术识别对于与所述网页相对应的web资源的引用。这样的操作还可以包括由所述系统将所述网址分段成一个或多个语义内容候选。这样的操作还可以包括由所述系统选择所述一个或多个语义内容候选中的一个作为所述域。
在一些实现方式中,基于从所述内容候选子集所选择的第一内容候选的语义内容来生成第二向量还可以包括由所述系统经由自然语言处理技术识别所述第一内容候选的链接的语义内容。这样的操作还可以包括由所述系统基于所述第一内容候选的所述链接的所述语义内容来生成所述第二向量。基于从所述内容候选子集所选择的第二内容候选的语义内容生成来第三向量还可以包括由所述系统经由所述自然语言处理技术识别所述第二内容候选的链接的语义内容。这样的操作还可以包括由所述系统基于所述第二内容候选的所述链接的所述语义内容来生成所述第三向量。
在一些实现方式中,确定在学习空间上的在所述第一向量和所述第二向量之间的第一距离还可以包括由所述系统识别所述第一内容候选关于所述网页的点进率。这样的操作还可以包括由所述系统基于所述第一内容候选的所述点进率来计算所述第一向量和所述第二向量的点积作为所述第一距离。确定在学习空间上的在所述第一向量和所述第三向量之间的第二距离还可以包括由所述系统识别所述第二内容候选关于所述网页的点进率。这样的操作还可以包括由所述系统基于所述第二内容候选的所述点进率来计算所述第一向量和所述第三向量的点积作为所述第二距离。
在一些实现方式中,所述方法还可以包括由所述系统迭代地确定所述第一距离小于所述距离阈值。所述方法还可以包括由所述系统迭代地向所述第一内容候选指配第一相关性分值以对选择所述第一内容候选进行优先级排序。所述方法还可以包括在所述第二数据结构中维护所述第一相关性分值。
在一些实现方式中,所述方法还可以包括由所述系统迭代地确定所述第二距离等于或大于所述距离阈值。所述方法还可以包括由所述系统迭代地向所述第二内容候选指配第二相关性分值以对选择所述第二内容候选进行降低优先级排序。所述方法还可以包括在所述第二数据结构中维护所述第二相关性分值。
在另一方面,本公开针对一种提供内容候选的系统。该系统可以包括由机器可读指令配置的一个或多个硬件处理器。由所述机器可读指令配置的所述一个或多个处理器可以在第一数据结构中维护包括网页的域的第一数据集。由所述机器可读指令配置的所述一个或多个处理器可以在第二数据结构中维护包括内容候选子集的第二数据集。由所述机器可读指令配置的所述一个或多个处理器可以基于所述网页的所述域的语义内容来生成第一向量。由所述机器可读指令配置的所述一个或多个处理器可以基于从所述内容候选子集所选择的第一内容候选的语义内容来生成第二向量。由所述机器可读指令配置的所述一个或多个处理器可以基于从内容候选的子集选择的第二内容候选的语义内容来生成第三向量。由所述机器可读指令配置的所述一个或多个处理器可以确定在学习空间上的在所述第一向量和所述第二向量之间的第一距离。由所述机器可读指令配置的所述一个或多个处理器可以响应于所述第一距离满足距离阈值而将所述第一内容候选与所述网页的所述域相关联。由所述机器可读指令配置的所述一个或多个处理器可以确定在所述学习空间上的在所述第一向量和所述第三向量之间的第二距离。由所述机器可读指令配置的所述一个或多个处理器可以响应于所述第二距离不满足所述距离阈值而将所述第二内容候选与所述网页的所述域解除关联。
在一些实现方式中,由所述机器可读指令配置的所述一个或多个处理器还可以接收包括所述内容候选子集的多个内容候选。由所述机器可读指令配置的所述一个或多个处理器还可以针对所述多个内容候选中的每一个,监视与所述网页相关联的相应点进率。由所述机器可读指令配置的所述一个或多个处理器还可以基于确定所述内容候选子集中的每一个的相应点进率满足比率阈值来选择所述内容候选子集。由所述机器可读指令配置的所述一个或多个处理器还可以在所述第二数据结构中存储所述内容候选子集。
在一些实现方式中,由所述机器可读指令配置的所述一个或多个处理器还可以经由自然语言处理技术识别对于与所述网页相对应的web资源的引用。由所述机器可读指令配置的所述一个或多个处理器还可以将所述网址分段成一个或多个语义内容候选。由所述机器可读指令配置的所述一个或多个处理器还可以选择所述一个或多个语义内容候选中的一个作为所述域。
在一些实现方式中,由所述机器可读指令配置的所述一个或多个处理器还可以经由自然语言处理技术识别所述第一内容候选的链接的语义内容。由所述机器可读指令配置的所述一个或多个处理器还可以基于所述第一内容候选的所述链接的所述语义内容来生成所述第二向量。由所述机器可读指令配置的所述一个或多个处理器还可以经由所述自然语言处理技术识别所述第二内容候选的链接的语义内容。由所述机器可读指令配置的所述一个或多个处理器还可以基于所述第二内容候选的所述链接的所述语义内容来生成所述第三向量。
在一些实现方式中,由所述机器可读指令配置的所述一个或多个处理器还可以识别所述第一内容候选关于所述网页的点进率。由所述机器可读指令配置的所述一个或多个处理器还可以基于所述第一内容候选的所述点进率来计算所述第一向量和所述第二向量的点积作为所述第一距离。由所述机器可读指令配置的所述一个或多个处理器还可以识别所述第二内容候选关于所述网页的点进率。由所述机器可读指令配置的所述一个或多个处理器还可以基于所述第二内容候选的所述点进率来计算所述第一向量和所述第三向量的点积作为所述第二距离。
在一些实现方式中,由所述机器可读指令配置的所述一个或多个处理器还可以进一步迭代地确定所述第一距离小于所述距离阈值。由所述机器可读指令配置的所述一个或多个处理器还可以迭代地向所述第一内容候选指配第一相关性分值以对选择所述第一内容候选进行优先级排序。由所述机器可读指令配置的所述一个或多个处理器还可以在所述第二数据结构中维护所述第一相关性分值。
在一些实现方式中,由所述机器可读指令配置的所述一个或多个处理器还可以迭代地确定所述第二距离等于或大于所述距离阈值。由所述机器可读指令配置的所述一个或多个处理器还可以进一步迭代地向所述第二内容候选指配第二相关性分值以对选择所述第二内容候选进行降低优先级排序。由所述机器可读指令配置的所述一个或多个处理器还可以在所述第二数据结构中维护所述第二相关性分值。
在又一方面,本公开针对一种存储程序指令的非暂时性计算机可读介质。所述程序指令可以使一个或多个处理器在第一数据结构中维护包括网页的域的第一数据集。所述程序指令可以使所述一个或多个处理器在第二数据结构中维护包括内容候选子集的第二数据集。所述程序指令可以使所述一个或多个处理器基于所述网页的所述域的语义内容来生成第一向量。所述程序指令可以使所述一个或多个处理器基于从所述内容候选子集所选择的第一内容候选的语义内容来生成第二向量。所述程序指令可以使所述一个或多个处理器基于从所述内容候选子集所选择的第二内容候选的语义内容来生成第三向量。所述程序指令可以使所述一个或多个处理器确定在学习空间上的在所述第一向量和所述第二向量之间的第一距离。所述程序指令可以使得所述一个或多个处理器响应于所述第一距离满足距离阈值而将所述第一内容候选与所述网页的所述域相关联。所述程序指令可以使所述一个或多个处理器确定在所述学习空间上的在所述第一向量和所述第三向量之间的第二距离。所述程序指令可以使得所述一个或多个处理器响应于所述第二距离不满足所述距离阈值而将所述第二内容候选与所述网页的所述域解除关联。
在一些实现方式中,所述程序指令可以使所述一个或多个处理器进一步经由自然语言处理技术识别对于与所述网页相对应的web资源的引用。所述程序指令可以使所述一个或多个处理器进一步将所述网址分段成一个或多个语义内容候选。所述程序指令可以使所述一个或多个处理器进一步选择所述一个或多个语义内容候选中的一个作为所述域。
在一些实现方式中,所述程序指令可以使所述一个或多个处理器进一步经由自然语言处理技术识别所述第一内容候选的链接的语义内容。所述程序指令可以使所述一个或多个处理器进一步基于所述第一内容候选的所述链接的所述语义内容来生成所述第二向量。所述程序指令可以使所述一个或多个处理器进一步经由所述自然语言处理技术识别所述第二内容候选的链接的语义内容。所述程序指令可以使所述一个或多个处理器进一步基于所述第二内容候选的所述链接的所述语义内容来生成所述第三向量。
在一些实现方式中,所述程序指令可以使所述一个或多个处理器进一步识别所述第一内容候选关于所述网页的点进率。所述程序指令可以使所述一个或多个处理器进一步基于所述第一内容候选的所述点进率来计算所述第一向量和所述第二向量的点积作为所述第一距离。所述程序指令可以使所述一个或多个处理器进一步识别所述第二内容候选关于所述网页的点进率。所述程序指令可以使所述一个或多个处理器进一步基于所述第二内容候选的所述点进率来计算所述第一向量和所述第三向量的点积作为所述第二距离。
在一些实现方式中,所述程序指令可以使所述一个或多个处理器进一步迭代地确定所述第一距离小于所述距离阈值。所述程序指令可以使所述一个或多个处理器进一步迭代地向所述第一内容候选指配第一相关性分值以对选择所述第一内容候选进行优先级排序。所述程序指令可以使所述一个或多个处理器进一步在所述第二数据结构中维护所述第一相关性分值。
在一些实现方式中,所述程序指令可以使所述一个或多个处理器进一步迭代地确定所述第二距离大于所述距离阈值。所述程序指令可以使所述一个或多个处理器进一步迭代地向所述第二内容候选指配第二相关性分值以对选择所述第二内容候选进行降低优先级排序。所述程序指令可以使所述一个或多个处理器进一步在所述第二数据结构中维护所述第二相关性分值。
附图说明
当结合附图回顾以下对具体实施例的描述时,本发明的这些和其它方面和特征对于本领域的普通技术人员将变得显而易见,其中:
图1是描绘根据说明性实现方式的用于在计算机网络环境中实时评估一个或多个广告的环境的一个实现方式的框图;
图2是根据说明性实现方式的包括被选择来显示的一个或多个内容候选的示例网页;
图3是描绘根据说明性实现方式的基于内容候选的语义内容将内容候选与网页相关联的方法的流程图;以及
图4是示出根据说明性实现方式的可用于实现此处所描述和示出的系统和方法的要素的计算机系统的一般架构的框图。
具体实施方式
以下是与提供内容候选的方法、装置和系统相关的各种概念以及其实现方式的更详细描述。上文介绍并在下文更详细讨论的各种概念可以以多种方式中的任何方式来实现,因为所描述的概念不限于任何特定的实现方式。
广告商可以提供广告以增加品牌知名度以及向用户提供更相关内容。广告可以被实现为各种形式以与用户交互。例如,广告可以用作一个或多个信息资源(例如,网页、视频馈送等)上的一个或多个内容链接。当用户访问信息资源时,用户可以与这样的内容链接交互。在不利用本公开的系统和方法的实现方式中,广告商通常使用一系统来从内容候选池中选择内容链接,内容候选池有时可以被称为“radlink候选”。例如,响应于识别出广告商打算在其中呈现内容链接的网页的域名(或域),系统可以将域名指配到相应类别中。基于域名被指配到的类别,识别或分类多个radlink候选。依赖于选择候选Radlink的这种粗过滤方法可能导致各种问题,例如,缺少对实际上与特定类别相关的(一个或多个)radlink候选的指配。因此,可能不利地影响这种radlink候选的性能(例如,点进率(CTR)),这进而可能导致相应广告商的额外资源成本。
本公开通过基于一个或多个内容候选的相应语义内容将所述一个或多个内容候选与网页相关联来提供用于对上述问题的技术方案的系统和方法。在一些实施例中,所公开的系统可以包括、管理两个数据结构或以其它方式与两个数据结构交互。一个数据结构可以提供网页的域以生成第一向量。另一数据结构可以提供多个内容候选中的选定内容候选以生成第二向量。系统可以基于两个向量之间的距离来比较域和每个内容候选者在语义上如何相关。系统可以在确定出距离满足距离阈值时识别内容候选与域在语义上相关。因此,系统不仅可以确定域和每个内容候选之间的语义关系,而且还可以确定每个内容候选关于域的语义相关程度的度量。
图1是描绘用于基于内容候选的语义内容来将内容候选与网页相关联的环境的一个实现方式的框图。环境100包括至少一个数据处理系统110。数据处理系统110可以包括至少一个处理器和存储器,即处理电路。存储器存储处理器可执行指令,当所述处理器可执行指令由处理器执行时,所述处理器可执行指令使处理器执行本文所述的操作中的一个或多个。处理器可以包括微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)等,或它们的组合。存储器可以包括但不限于电子、光学、磁性或能够向处理器提供程序指令的任何其它存储或传输设备。存储器还可以包括软盘、CD-ROM、DVD、磁盘、存储器芯片、ASIC、FPGA、只读存储器(ROM)、随机存取存储器(RAM)、电可擦除ROM(EEPROM)、可擦除可编程ROM(EPROM)、闪存存储器、光学介质、或处理器可以从其读取指令的任何其它适当的存储器。指令可以包括来自任何合适的计算机编程语言的代码。数据处理系统可以包括可以执行各种功能的一个或多个计算设备或服务器。在一些实现方式中,数据处理系统可以包括被配置为托管拍卖的广告拍卖系统。在一些实现方式中,数据处理系统不包括广告拍卖系统,而是被配置成经由网络105与广告拍卖系统通信。
网络105可以包括计算机网络,例如互联网、局域网、广域网、城域网或其它区域网、内联网、卫星网络、其它计算机网络,例如语音或数据移动电话通信网络及其组合。系统100的数据处理系统110可以经由网络105例如与至少一个内容提供商计算设备115、至少一个内容发布者计算设备120或至少一个终端用户计算设备125通信。网络105可以是在用户计算设备115、数据处理系统110和一个或多个内容源(例如,web服务器、广告服务器等)之间中继信息的任何形式的计算机网络。例如,网络105可以包括互联网和/或其它类型的数据网络,诸如局域网(LAN)、广域网(WAN)、蜂窝网络、卫星网络或其它类型的数据网络。网络105还可以包括被配置为在网络105内接收和/或传送数据的任意数量的计算设备(例如,计算机、服务器、路由器、网络交换机等)。网络105还可以包括任意数目的硬连线和/或无线连接。例如,用户计算设备115可以(例如,经由WiFi、蜂窝、无线电等)与(例如,经由光纤电缆、CAT5电缆等)被硬连线到网络105中的其它计算设备的收发器无线地通信。
内容提供商计算设备115可以包括由内容提供商实体操作的服务器或其它计算设备,以在诸如内容候选的内容项被选择时提供该内容项以用于在终端用户计算设备125处的信息资源上显示。内容候选可以由一个或多个相应广告商提供。在一些实现方式中,内容候选有时可以被称为广告候选。每个内容候选可以包括到多个广告链接的链接。每个广告链接在被激活(例如,被点击)时可以导致登陆网页的结果。可以通过内容提供商计算设备115提供所选择的内容候选。可以在由内容发布者计算设备120提供的信息资源上显示所选择的内容候选的链接。
上述信息资源可以包括网站或网页,该网站或网页包括主要内容,例如由内容发布者计算设备120提供的内容。内容项也可以显示在搜索结果网页上。例如,内容提供商计算设备115可以提供广告或其它内容项或作为广告或其它内容项的源,该广告或其它内容项用于在内容网页(诸如其中网页的主要内容由公司提供的公司的网页)的内容槽中显示或用于在由搜索引擎提供的搜索结果登录页面上显示。可以在除网页之外的信息资源上显示与内容提供商计算设备115相关联的内容项,诸如作为智能电话或其它终端用户计算设备125上的应用的执行的一部分而显示的内容。
内容发布者计算设备120可以包括由内容发布实体操作的服务器或其它计算设备,以提供主要内容以用于经由网络105显示。例如,内容发布者计算设备120可以包括提供主要内容以显示在网页上的网页运营商。主要内容可以包括除了由内容发布者计算设备120提供的内容之外的内容,并且网页可以包括被配置用于显示来自内容提供商计算设备115的第三方内容项(例如,广告)的内容槽。例如,内容发布者计算设备120可以操作公司的网站并且可以提供关于该公司的内容以用于在网站的网页上显示。网页可以包括被配置用于显示第三方内容项(诸如内容提供商计算设备115的广告)的内容槽。在一些实现方式中,内容发布者计算设备120包括操作搜索引擎网站的搜索引擎运营商的搜索引擎计算设备(例如,服务器)。搜索引擎网页(例如,结果或登陆网页)的主要内容可以包括搜索的结果以及在内容槽中显示的第三方内容项,诸如来自内容提供商计算设备115的内容项。在一些实现方式中,内容发布者计算设备120可以包括用于提供视频内容的服务器。
终端用户计算设备125可以包括被配置为经由网络105进行通信以显示数据的计算设备,所述数据诸如是由内容发布者计算设备120提供的内容(例如,主要网页内容或其它信息资源)和由内容提供商计算设备115提供的内容(例如,第三方内容项,诸如被配置为在网页的内容槽中显示的广告)。终端用户计算设备125、内容提供商计算设备115和内容发布者计算设备120可以包括台式计算机、膝上型计算机、平板计算机、智能电话、个人数字助理、移动设备、消费者计算设备、服务器、客户端、数字视频记录器、用于电视的机顶盒、视频游戏控制台或被配置为经由网络105通信的任何其它计算设备。终端用户计算设备125可以是终端用户可通过其提交请求以接收内容的通信设备。请求可以是对搜索引擎的请求,并且请求可以包括搜索查询。在一些实现方式中,请求可以包括访问网页的请求。
内容提供商计算设备115、内容发布者计算设备120和终端用户计算设备125可以包括处理器和存储器,即处理电路。存储器存储机器指令,当所述机器指令由处理器执行时,所述机器指令使处理器执行本文描述的操作中的一个或多个。处理器可以包括微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)等,或它们的组合。存储器可以包括但不限于电子、光学、磁性或能够向处理器提供程序指令的任何其它存储或传输设备。存储器还可以包括软盘、CD-ROM、DVD、磁盘、存储器芯片、ASIC、FPGA、只读存储器(ROM)、随机存取存储器(RAM)、电可擦除ROM(EEPROM)、可擦除可编程ROM(EPROM)、闪存存储器、光学介质、或处理器可以从其读取指令的任何其它适当的存储器。指令可以包括来自任何合适的计算机编程语言的代码。
内容提供商计算设备115、内容发布者计算设备120和终端用户计算设备125还可以包括一个或多个用户接口设备。通常,用户接口设备是指通过生成感官信息(例如,显示器上的可视化、一个或多个声音等)向用户传达数据和/或将从用户接收到的感官信息转换成电子信号的任何电子设备(例如,键盘、鼠标、指点设备、触摸屏显示器、麦克风等)。根据各种实现方式,所述一个或多个用户接口设备可以在内容提供商计算设备115、内容发布者计算设备120和终端用户计算设备125的外壳的内部(例如,内置显示器、麦克风等),或者在内容提供商计算设备115、内容发布者计算设备120和终端用户计算设备125的外壳的外部(例如,连接到用户计算设备115的监视器、连接到用户计算设备115的扬声器等)。例如,内容提供商计算设备115、内容发布者计算设备120和终端用户计算设备125可以包括电子显示器,其使用经由网络105从一个或多个内容源和/或从数据处理系统110接收的网页数据来视觉地显示网页。在一些实现方式中,内容放置活动管理器或诸如广告商的第三方内容提供商可以经由内容提供商计算设备115与数据处理系统110通信。在一些实现方式中,广告商可以经由显示在内容提供商计算设备115的用户接口设备上的用户接口与数据处理系统110通信。
数据处理系统110可以包括至少一个服务器。例如,数据处理系统110可以包括位于至少一个数据中心或服务器农场中的多个服务器。在一些实现方式中,数据处理系统110包括内容放置系统,例如广告服务器或广告放置系统。数据处理系统110可以包括至少一个数据接收模块130、至少一个向量生成模块135、至少一个距离比较模块140、数据维护模块145、第一数据结构150以及第二数据结构152。数据接收模块130、向量生成模块135、距离比较模块140以及数据维护模块145各自可以包括至少一个处理单元、服务器、虚拟服务器、电路、引擎、代理、电器或其它逻辑设备,诸如被配置为经由网络105与数据结构150和152通信以及与其它计算设备(例如,内容提供商计算设备115、内容发布者计算设备120或终端用户计算设备125)通信的可编程逻辑阵列。
数据接收模块130、向量生成模块135、距离比较模块140以及数据维护模块145可以包括或执行至少一个计算机程序或至少一个脚本。在一些实现方式中,数据接收模块130、向量生成模块135、距离比较模块140以及数据维护模块145可以是数据处理系统110的单独的组件、单个组件或部分。数据接收模块130、向量生成模块135、距离比较模块140以及数据维护模块145可以包括软件和硬件的组合,诸如被配置为执行一个或多个脚本以进行以下操作的一个或多个处理器:(a)接收、检索或以其它方式识别网页的一个或多个域(或域名);(b)接收、检索或以其它方式识别一个或多个内容候选;(c)维护、存储或以其它方式管理多个内容候选中的每一个的一个或多个特性(例如,相关性分值);(d)基于所识别的域来生成一或多个向量;(e)基于所选择的内容候选来生成一个或多个向量;(f)确定在学习空间上的两个向量之间的距离;(g)将两个向量之间的距离与距离阈值进行比较;以及(h)将一个或多个内容候选与域相关联或解除关联。
数据处理系统110还可以包括、管理一个或多个内容储存库、数据库或数据结构,例如150-152,或与该一个或多个内容储存库、数据库或数据结构对接(interface)。数据结构150-152可以是数据处理系统110本地的。在一些实现方式中,数据结构150-152可以远离数据处理系统110,但是可以经由网络105与数据处理系统110通信。数据结构150-152可以包括网页、内容项(例如,先前创建的广告)、主要视频内容、广告活动管理器、内容提供商馈送、第三方内容和注释等,以提供给终端用户计算设备125。
数据接收模块130可以通过内容提供商计算设备115接收由第一广告商提供的一个或多个web资源和一个或多个网页的对应引用(corresponding references)。对网页的web资源的引用的示例可以包括以下各项中的至少一项:网页的统一资源定位符(URL)、网页的链接以及网页的超链接。数据接收模块130可以通过内容提供商计算设备115接收由第二广告商提供的一个或多个内容候选。内容候选中的每一个可以包括链接或超链接。链接在被激活(例如,点击)时可以通向一个或多个内容链接。每个内容链接在被激活(例如,点击)时可以通向包括有广告商打算呈现的内容的一个或多个登录页面。在一些实现方式中,数据接收模块130可以接收用于网页的任何数量的内容候选。在一些实现方式中,第一和第二广告商可以彼此相同或不同。例如,数据处理系统110可以将由第一广告商提供的一个或多个内容候选与由不同的第二广告商提供的网页相关联。
响应于接收web资源(和对应的引用)和内容候选(和对应的链接),数据接收模块130可以将web资源和对应的引用存储在数据结构150中,并且将内容候选存储在数据结构152中。对网页的web资源的引用可以作为数据集、数组(array)、表格等被存储或维护在数据结构150中。类似地,到内容候选的链接可以作为数据集、数组、表格等等被存储或维护在数据结构152中。
在数据结构152中,数据处理系统110或数据维护模块145可以动态地对内容候选进行排名、分组、重组或以其它方式排序。在一些实现方式中,数据处理系统110可以基于关于域(或域名)的相应相关性分值来对数据结构152中的内容候选进行排名。在一些实现方式中,系统110可以基于相应的更新的对域的相关性分值来动态地更新数据结构152中的内容候选的排名。在一些实现方式中,在数据结构152中维护的内容候选可以是数据接收模块130已经接收到的内容候选子集。可以基于相应点进率满足预定比率阈值来选择这样的内容候选子集。例如,在数据接收模块130接收多个内容候选时,数据处理系统110可以针对所述多个内容候选中的每一个,监视与在数据结构150中维护的网页相关联的相应点进率。数据处理系统110可以基于确定这些内容候选子集中的每一个的相应点进率满足比率阈值来选择所述多个内容候选的子集,并且在数据结构152中存储或维护内容候选子集。
向量生成模块135可以基于由数据结构150和152分别维护的数据集来生成第一向量和第二向量。在一些实现方式中,响应于数据结构150存储对网页的web资源(例如,网页的URL)的引用,向量生成模块135可以与数据结构150通信以经由自然语言处理(NLP)技术或各种语义分析技术中的任何语义分析技术来识别该引用。在识别引用时,向量生成模块135可以将引用分段成一个或多个语义内容候选。从所述一个或多个语义内容候选,向量生成模块135可以选择表示网页的域(或域名)的一个语义内容候选。在一些实现方式中,向量生成模块135可以使用表示域的语义内容来生成第一向量。在一些实现方式中,向量生成模块135可以基于一个或多个归一化输入或特征来生成第一向量。例如,向量生成模块135可以检查引用上的拼写、将引用的字符中的每一个转换成小写、和/或根据一个或多个单词边界拆分引用以生成一个或多个归一化输入。基于所述一个或多个归一化输入中的每一个,向量生成模块135可以在学习空间中查找或识别对应的向量。响应于识别多个向量,向量生成模块135可以通过聚合(例如,求和、平均等)所述多个向量来生成第一向量。
在一些实现方式中,响应于数据结构152存储多个内容候选的链接,向量生成模块135可以与数据结构152通信以选择内容候选中的一个。向量生成模块135可以经由自然语言处理(NLP)技术或各种语义分析技术中的任何语义分析技术来识别所选择的内容候选的链接的一个或多个语义内容。基于链接的所述一个或多个语义内容,向量生成模块135可以生成第二向量。在一些实现方式中,向量生成模块135可以基于一个或多个归一化输入或特征来生成第二向量。例如,向量生成模块135可以检查所选择的内容候选的拼写,将所选择的内容候选的每个字符转换为小写,和/或根据一个或多个单词边界拆分所选择的内容候选以生成一个或多个归一化输入。基于一个或多个归一化输入中的每一个,向量生成模块135可以在学习空间中查找或识别对应的向量。响应于识别多个向量,向量生成模块135可以通过聚合(例如,求和、平均等)所述多个向量来生成第二向量。
距离比较模块140可以确定在学习空间上的在第一向量和第二向量之间的距离。在一些实现方式中,响应于向量生成模块135生成第一向量和第二向量,距离比较模块140可以在学习空间(例如,二维向量空间)上分配第一向量和第二向量。距离比较模块140可以估计、计算或以其它方式确定在学习空间上的在第一向量和第二向量之间的距离(例如,Hausdorff距离)。在一些实现方式中,距离比较模块140可以监视、检索或以其它方式识别所选内容候选关于网页的点进率。基于该点进率,距离比较模块140可以计算第一向量和第二向量的点积以表示距离。例如,距离比较模块140可以与内容提供商115、内容发布者120或终端用户计算设备125中的一个通信或对接,以识别所选择的内容候选关于网页的点进率。距离比较模块140可以使用所识别的点进率来计算点积。
在确定第一向量与第二向量之间的距离时,距离比较模块140可以将该距离与预定距离阈值进行比较,并且确定该距离是否满足预定距离阈值(例如,小于距离阈值)。在一些实现方式中,如果距离小于距离阈值,则距离比较模块140可以向所选择的内容候选指配相对高的相关性分值。另一方面,如果距离大于或等于距离阈值,则距离比较模块140可以向所选择的内容候选指配相对低的相关性分值。相关性分值可以用作所选择的内容候选与域的相关程度的度量。在一些实现方式中,向量生成模块135可以周期性地选择数据结构152中的每个内容候选以生成相应的第二向量,使得距离比较模块140可以周期性地确定域与每个内容候选之间的距离(和相关性分值)。在确定每个内容候选的相关性分值时,距离比较模块140或数据维护模块145可以将相关性分值与相应的内容候选一起存储在数据结构152中。在一些实现方式中,这样的相关性分值可以由广告商使用,例如,以对选择要在网页上显示的对应的内容候选进行优先级排序或降低优先级排序。在一些实现方式中,数据处理系统110可以使用相关性分值来自动地对选择要在网页上显示的对应的内容候选进行优先级排序或降低优先级排序。
在一些实现方式中,距离比较模块140可以使用机器学习算法或人工智能算法来生成域和每个内容候选之间的距离。距离比较模块140可以使用一个或多个先前确定的距离来训练机器学习算法以生成距离(和对应的相关性分值)。
例如,距离比较模块140可以包括神经网络或其它机器学习算法。距离比较模块140可以使用具有相对高的相关性分值的内容候选和/或具有相对低的相关性分值的内容候选来训练神经网络。在一些实现方式中,聚类算法可以基于例如相应的相关性分值来对内容候选进行聚类。来自具有相对高的相关性分值的内容候选的数据可以被解析成特征向量的第一集合,并且来自具有相对低的相关性分值的内容候选的数据可以被解析成特征向量的第二集合。距离比较模块140可以使用特征向量的第一集合和/或特征向量的第二集合作为训练数据来训练神经网络以生成神经网络的权重和偏置。随着时间的推移(例如,在预定时间段之后或响应于距离比较模块140检索所选择的内容候选的更新的点进率),所选择的内容候选然后可以被解析成被输入到经训练的神经网络中的特征向量。神经网络可以确定指示所选择的内容候选与域的相关程度的概率。基于该概率,距离比较模块140可以生成用于所选择的内容候选的更新的相关性分值。
数据维护模块145可以响应于距离满足距离阈值而将所选择的内容候选与网页的域相关联。数据维护模块145可以响应于距离不满足距离阈值而将所选择的内容候选与网页的域解除关联。在一些实现方式中,数据维护模块145可以与距离比较模块140或数据结构152通信以识别每个内容候选关于域的相应相关性分值。数据维护模块145可以基于相应相关性分值来对数据结构152中的内容候选进行排名。这样,当广告商要从数据结构152选择要显示在网页上的内容候选中的一个时,广告商可以使用对内容候选的排名来对选择内容候选进行优先级排序或降低优先级排序。如上所述,距离比较模块140可以动态地(例如,周期性地或响应性地)更新内容候选的相关性分值。数据维护模块145可以根据对相关性分值的更新来动态地更新对内容候选的排名。
参考图2,示出了包括被选择来显示的一个或多个内容候选的示例网页200。在图2的情境中,网页包括引用202。引用202可以包括一个或多个语义内容候选,例如204(“your(你的)”)和206(“recipe(食谱)”)。这样的引用202或语义内容候选204-206可以被维护在数据处理系统110的数据结构150中。如上所述,数据处理系统110可以选择候选中的一个作为网页200的域(例如,206)。数据处理系统110可以对在数据处理系统110的数据结构152中维护的多个内容候选进行排名。这样,根据上面讨论的原理,所述多个内容候选中的具有相对高的相关性分值的一个或多个可以由广告商优先选择或者由数据处理系统110自动选择。如图所示,广告商或数据处理系统100可以基于语义内容206和以下内容候选212-226中的每一个的一个或多个语义内容之间的关系来选择要在网页200上显示的内容候选,其中所述内容候选212-226包括:内容候选212(“Healthy Side Dish Recipes(健康配菜食谱)”)、内容候选214(“Dessert Recipes(甜点食谱)”)、内容候选216(“Easy DinnerRecipes(易餐食谱)”)、内容候选222(“Turkey Recipes(火鸡食谱)”)、内容候选224(“Chicken Recipes(鸡肉食谱)”)以及内容候选226(“Beef Recipes(牛肉食谱)”)。在网页200上显示的每个内容候选可以包括与终端用户交互(例如,可点击)的链接。
参考图3,描绘了用于基于内容候选的语义内容将内容候选与网页相关联的方法300的一个实现方式的流程图。方法300的功能可以使用在此结合图1详细描述的组件来实现或由其执行。因此,应当理解,在保持在本公开的范围内的情况下,可以省略、重新排序和/或添加各种操作或框中的任何操作或框。
总的来说,方法300可以包括维护第一数据集(框302)。方法300可以包括生成第一向量(框304)。方法300可以包括维护第二数据集(框306)。方法300可包括生成第二数据集(框308)。方法300可以包括确定第一向量和第二向量之间的距离(框310)。方法300可以包括确定该距离是否满足距离阈值(框312)。如果是,则方法300可以包括将对应的内容候选与域相关联(框314)。如果否,则方法300可以包括将对应的内容候选与域解除关联(框316)。
更详细地,方法300可以包括在系统的第一数据结构中维护第一数据集(框302)。在图1的情境中,数据处理系统100可以通过内容提供商计算设备115接收一个或多个web资源和对一个或多个网页的对应引用。对网页的web资源的引用的示例可以包括以下各项中的至少一项:网页的统一资源定位符(URL)、网页的链接以及网页的超链接。响应于接收到web资源(和对应的引用),数据处理系统110可以将web资源和对应的引用存储在第一数据结构(例如,数据结构150)中。对网页的web资源的引用可以作为数据集、数组、表格等存储或维护在数据结构150中。
方法300可以包括基于网页的域的语义内容来生成第一向量(框304)。在一些实现方式中,响应于数据结构150存储、接受或以其它方式接收对网页的web资源(例如,网页的URL)的引用,数据处理系统110可以与数据结构150通信以经由自然语言处理(NLP)技术或各种语义分析技术中的任何语义分析技术来识别该引用。在识别引用时,数据处理系统110可以将引用分段成一个或多个语义内容候选。从所述一个或多个语义内容候选,数据处理系统110可以选择表示网页的域(或域名)的语义内容候选。在一些实现方式中,数据处理系统110可以使用表示域的语义内容来生成第一向量。例如,数据结构150可以存储具有对相应web资源的引用的网页,如https://www.tools.com。数据处理系统110可以确定对引用的语义内容中的一个,作为该网页的域,例如“tools(工具)”。
方法300可以包括在系统的第二数据结构中维护包括内容候选的子集的第二数据集(框306)。再次参考图1,数据处理系统110可以接收通过内容提供商计算设备115提供的一个或多个内容候选。每个内容候选可以包括链接或超链接。链接在被激活(例如,点击)时可以通向一个或多个内容链接。每个内容链接在被激活(例如,点击)时可以通向包括有广告商打算呈现的内容的一个或多个登录页面。响应于接收到内容候选(和对应的链接),数据处理系统110可以将内容候选存储在第二数据结构(例如,数据结构152)中。到内容候选的链接可以作为数据集、数组、表格等等存储或维护在数据结构152中。
方法300可以包括基于所选择的内容候选的语义内容来生成第二向量(框308)。在一些实现方式中,响应于数据结构152存储、接受或以其它方式接收多个内容候选的链接,数据处理系统110可以与数据结构152通信以选择内容候选中的一个。数据处理系统110可以经由自然语言处理(NLP)技术或各种语义分析技术中的任何语义分析技术来识别所选择的内容候选的链接的一个或多个语义内容。基于链接的一个或多个语义内容,数据处理系统110可以生成第二向量。
方法300可以包括确定在学习空间上的在第一向量和第二向量之间的距离(框310)。在一些实现方式中,响应于第一向量和第二向量的生成,数据处理系统110可以在学习空间(例如,二维向量空间)上分配第一向量和第二向量。数据处理系统110可以估计、计算或以其它方式确定在学习空间上的在第一向量和第二向量之间的距离(例如,Hausdorff距离)。在一些实现方式中,数据处理系统110可以监视、检索或以其它方式识别所选择的内容候选关于网页的点进率。基于该点进率,数据处理系统110可以计算第一向量和第二向量的点积以表示距离。例如,数据处理系统110可以与内容提供商115、内容发布者120或终端用户计算设备125中的一个通信或对接,以识别所选择的内容候选关于网页的点进率。数据处理系统110可以使用所识别的点进率来计算点积。例如,数据处理系统110可以使用所识别的点进率作为预定关系(例如,预定等式)的输入来确定距离。
方法300可以包括确定距离是否满足距离阈值(框312)。在一些实现方式中,距离阈值可以是预定的(例如,静态值),或者可以被更新(例如,动态值)。数据处理系统110可以基于各种因素动态地更新、调整或以其它方式创建距离阈值。例如,数据处理系统110可以响应于确定内容候选的数量超过预定数量而减小距离阈值。这样,数据处理系统110可以使用这种减小的距离阈值作为过滤器的形式,以减少数据处理系统110要从中选择的内容候选的总数。
返回参考图3,响应于确定距离满足(例如,小于)距离阈值,方法300可以包括将所选择的内容候选与网页的域相关联(框314)。这样的关联可以使得对内容候选进行优先级排序以被选择为显示在网页上。另一方面,响应于确定距离不满足(例如,等于或大于)距离阈值,方法300可以包括将所选择的内容候选与网页的域解除关联(框316)。这样的解除关联可以使得对内容候选进行降低优先级排序以被选择为显示在网页上。可替换地或附加地,在与域解除关联时,可以从数据结构152中移除对应的内容候选。在一些实现方式中,数据处理系统110可以迭代地选择数据结构152中维护的内容候选中的每一个,生成相应的第二向量,并且确定学习空间上的相应距离。在将第一向量与第二向量之间的距离与距离阈值进行比较(例如,与框314或316同时或随后)之后,方法300可以再次进行到框306。这样,数据处理系统110可以基于相应的距离(以及对应的相关性分值)来动态地更新数据结构152中维护的内容候选与网页的相关程度。例如,距离越短,内容候选越相关(相关性分值越高)。因此,具有较高相关性分值的内容候选可以被优先级排序以被选择,并且具有较低相关性分值的内容候选可以被降低优先级排序以被选择。在一些实现方式中,可以在网页上显示所选择的内容候选。
图4示出根据一些实现方式的可以用于实现本文所讨论的任何计算机系统(包括数据处理系统110及其组件,例如各种模块130-145)的说明性计算机系统400的一般架构。计算机系统400可用于经由网络105提供信息以供显示。图4的计算机系统400包括一个或多个处理器420,该一个或多个处理器通信地耦合到存储器425、一个或多个通信接口405、以及一个或多个输出设备410(例如,一个或多个显示单元)和一个或多个输入设备415。处理器420可以包括在数据处理系统110或该系统110的其它组件中,例如各种模块130和145。
在图4的计算机系统400中,存储器425可以包括任何计算机可读存储介质,并且可以存储计算机指令,诸如用于实现这里针对各个系统描述的各种功能的处理器可执行指令,以及与其相关的、由其生成的或者经由(一个或多个)通信接口或(一个或多个)输入设备(如果存在的话)接收的任何数据。再次参考图1的系统110,数据处理系统110可以包括存储器425,以存储与一个或多个内容单元的库存的可用性、一个或多个内容单元的预订等有关的信息。存储器425可以包括数据库150。图4所示的(一个或多个)处理器420可以用于执行存储在存储器425中的指令,并且在这样做时,还可以从存储器读取或者向存储器写入根据指令的执行而处理和/或生成的各种信息。
图4所示的计算机系统400的处理器420还可以通信地耦合到或控制(一个或多个)通信接口405,以便根据指令的执行来传送或接收各种信息。例如,(一个或多个)通信接口405可以耦合到有线或无线网络、总线或其它通信装置,并且因此可以允许计算机系统400向其它设备(例如,其它计算机系统)传送信息或从其它设备接收信息。虽然在图1的系统中未明确示出,但是一个或多个通信接口促进系统400的组件之间的信息流。在一些实现方式中,(一个或多个)通信接口可以被配置成(例如,经由各种硬件组件或软件组件)提供网站作为到计算机系统400的至少一些方面的访问门户。通信接口405的示例包括用户接口(例如,网页),用户可以通过该用户接口与数据处理系统400通信。
可以提供图4所示的计算机系统400的输出设备410,例如,以允许各种信息被查看或以其它方式被感知为与指令的执行有关。可以提供(一个或多个)输入设备415,例如,以允许用户在指令的执行期间进行手动调整、进行选择、输入数据或以各种方式中的任何方式与处理器交互。本文进一步提供了与可用于本文所讨论的各种系统的一般计算机系统架构有关的附加信息。
本说明书中描述的主题和操作的实现方式可以在数字电子电路中实现,或者在有形介质、固件或硬件上实现的计算机软件中实现,包括本说明书中公开的结构及其结构等效物,或者它们中的一个或多个的组合。本说明书中描述的主题的实现方式可以被实现为一个或多个计算机程序,即,计算机程序指令的一个或多个模块,其被编码在计算机存储介质上以供数据处理装置执行或控制数据处理装置的操作。程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,其被生成以编码信息,以用于传输到适当的接收器装置以供数据处理装置执行。计算机存储介质可以是计算机可读存储设备、计算机可读存储基板、随机或串行存取存储器阵列或设备、或者它们中的一个或多个的组合,或者计算机存储介质可以包括在计算机可读存储设备、计算机可读存储基板、随机或串行存取存储器阵列或设备、或者它们中的一个或多个的组合中。此外,虽然计算机存储介质不是传播信号,但是计算机存储介质可以包括在人工生成的传播信号中编码的计算机程序指令的源或目的地。计算机存储介质也可以是一个或多个单独的物理组件或介质(例如,多个CD、盘或其它存储设备),或者被包括在一个或多个单独的物理组件或介质中。
本文公开的特征可在智能电视模块(或连接的电视模块、混合电视模块等)上实现,其可以包括被配置成将互联网连接与更传统的(例如,经由电缆、卫星、空中或其它信号接收的)电视节目源集成的处理模块。智能电视模块可以物理地并入到电视机中,或者可以包括单独的设备,诸如机顶盒、蓝光或其它数字媒体播放器、游戏控制台、酒店电视系统以及其它伴随设备。智能电视模块可以被配置成允许观看者搜索和找到web上、本地有线电视频道上、卫星电视频道上或本地硬盘驱动器上存储的视频、电影、照片和其它内容。机顶盒(STB)或机顶盒单元(STU)可以包括信息电器设备,该信息电器设备可以包含调谐器并且连接到电视机和外部信号源,将信号变成内容,然后将该内容显示在电视屏幕或其它显示设备上。智能电视模块可以被配置为提供主屏幕或顶层屏幕,包括用于多个不同应用的图标,所述应用诸如是web浏览器和多个流媒体服务、连接的有线或卫星媒体源、其它web“频道”等。智能电视模块还可以被配置成向用户提供电子程序指南。对于智能电视模块的伴随应用能够在移动计算设备上运行,以向用户提供关于可用的程序的附加信息,以允许用户控制智能电视模块等。在可替代实现方式中,所述特征可实现在膝上型计算机或其它个人计算机、智能电话、其它移动电话、手持式计算机、平板PC或其它计算设备上。
本说明书中描述的操作可以被实现为由数据处理装置对存储在一个或多个计算机可读存储设备上或从其它源接收的数据执行的操作。
术语“数据处理装置”、“数据处理系统”、“用户设备”或“计算设备”包含用于处理数据的所有种类的装置、设备和机器,包括例如可编程处理器、计算机、片上系统或前述中的多个或组合。该装置可以包括专用逻辑电路,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外,该装置还可以包括创建用于所讨论的计算机程序的执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行时环境、虚拟机或它们中的一个或多个的组合的代码。该装置和执行环境可以实现各种不同的计算模型基础设施,诸如web服务、分布式计算和网格计算基础设施。模块130-145可以包括或共享一个或多个数据处理装置、计算设备或处理器。
计算机程序(也称为程序、软件应用、脚本或代码)可以用任何形式的编程语言来编写,包括编译或解释语言、声明性或过程语言,并且它可以用任何形式来部署,包括作为独立程序或作为模块、组件、子例程、对象或适合在计算环境中使用的其它单元。计算机程序可以但不需要对应于文件系统中的文件。程序可以存储在保存其它程序或数据(例如,存储在标记语言文档中的一个或多个脚本)的文件的一部分中、专用于所讨论的程序的单个文件中、或多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。计算机程序可以被部署为在一个计算机上执行,或者在位于一个地点或分布在多个地点并通过通信网络互连的多个计算机上执行。
本说明书中描述的过程和逻辑流程可以由一个或多个可编程处理器执行,该一个或多个可编程处理器执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行动作。处理和逻辑流程还可以由专用逻辑电路执行,并且装置还可以被实现为专用逻辑电路,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。
适于执行计算机程序的处理器包括例如通用和专用微处理器,以及任何类型的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本要素是用于根据指令执行动作的处理器以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘,或者可操作地耦合到所述大容量存储设备以从其接收数据或向其传送数据,或者两者。但是,计算机不需要具有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储设备(例如,通用串行总线(USB)闪存驱动器)。适于存储计算机程序指令和数据的设备包括所有形式的非易失性存储器、介质和存储器设备,包括例如半导体存储器设备,例如EPROM、EEPROM和闪存存储器设备;磁盘,例如内部硬盘或可移动磁盘;磁光盘;以及CDROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。
为了提供与用户的交互,本说明书中描述的主题的实现方式可以在计算机上实现,该计算机具有:用于向用户显示信息的显示设备,例如CRT(阴极射线管)、等离子体或LCD(液晶显示器)监视器;以及用户可以用来向计算机提供输入的键盘和指点设备,例如鼠标或轨迹球。其它种类的设备也可以用于提供与用户的交互;例如,提供给用户的反馈可以包括任何形式的感觉反馈,例如视觉反馈、听觉反馈或触觉反馈;并且可以以任何形式接收来自用户的输入,包括声音、语音或触觉输入。另外,计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互;例如通过响应于从用户的客户端设备上的web浏览器接收到的请求而向该web浏览器发送网页。
本说明书中描述的主题的实现方式可以在计算系统中实现,该计算系统包括后端组件,例如作为数据服务器,或者包括中间件组件,例如应用服务器,或者包括前端组件,例如具有图形用户界面或Web浏览器的客户端计算机,通过该图形用户界面或Web浏览器,用户可以与本说明书中描述的主题的实现方式进行交互,或者包括一个或多个这样的后端组件、中间件组件或前端组件的任何组合。系统的组件可以通过任何形式或介质的数字数据通信(例如通信网络)互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)、互联网(例如,因特网)以及对等网络(例如,自组织对等网络)。
诸如系统400或系统110的计算系统可以包括客户端和服务器。例如,数据处理系统110可以包括一个或多个数据中心或服务器农场中的一个或多个服务器。客户端和服务器通常彼此远离,并且通常通过通信网络进行交互。客户端和服务器的关系借助于在相应计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。在一些实现方式中,服务器向客户端设备传送数据(例如,HTML页面)(例如,为了向与客户端设备交互的用户显示数据以及从该用户接收用户输入)。在客户端设备处生成的数据(例如,用户交互的结果)可以在服务器处从客户端设备接收。
虽然本说明书包含许多具体实现方式细节,但是这些不应被解释为对任何发明的范围或者可以要求保护的范围的限制,而是作为对特定于这里描述的系统和方法的特定实现方式的特征的描述。在本说明书中在单独实现方式的情境中描述的某些特征也可以在单个实现方式中组合地实施。相反,在单个实现方式的情境中描述的各种特征也可以在多个实现方式中单独地或以任何合适的子组合实现。此外,尽管特征可以在上面被描述为在某些组合中起作用并且甚至最初被这样要求保护,但是来自所要求保护的组合的一个或多个特征在一些情况下可以从该组合中被去除,并且所要求保护的组合可以针对子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应当被理解为要求以所示的特定顺序或以连续顺序执行这样的操作,或者要求执行所有示出的操作以实现期望的结果。在一些情况下,权利要求中所记载的动作可以以不同的顺序执行并且仍然实现期望的结果。另外,附图中描述的过程不必需要所示的特定顺序或连续顺序来实现期望的结果。
在某些情况下,多任务和并行处理可能是有利的。此外,上述实现方式中的各种系统组件的分离不应被理解为在所有实现方式中都需要这种分离,并且应当理解,所描述的程序组件和系统一般可以一起集成在单个软件产品中或封装到多个软件产品中。例如,模块130-145可以是数据处理系统110的一部分、单个模块、具有一个或多个处理模块的逻辑设备、一个或多个服务器、或者搜索引擎的一部分。
现在已经描述了一些说明性的实现方式和实现方式,显然,前述内容是说明性的而非限制性的,已经通过示例的方式呈现。特别地,尽管本文呈现的许多示例涉及方法动作或系统要素的特定组合,但是那些动作和那些要素可以以其它方式组合以实现相同的目的。仅结合一个实现方式讨论的动作、要素和特征不旨在被排除在其它实现方式或实现方式中的类似角色之外。
这里使用的措辞和术语是为了描述的目的,而不应被认为是限制。在此使用的“包括”、“包含”、“具有”、“含有”、“涉及”、“以.....为特征”、“特征在于”及其变化,意味着包括其后列出的项目、其等价物和附加项目,以及由其后列出的项目专门组成的可替代实现方式。在一个实现方式中,本文描述的系统和方法由一个、多于一个的每个组合、或所有描述的要素、动作或部件组成。
对本文以单数形式提及的系统和方法的实现方式或要素或动作的任何引用也可以涵盖包括多个这些要素的实现方式,并且对本文的任何实现方式或要素或动作的任何复数引用也可以涵盖仅包括单个要素的实现方式。单数或复数形式的引用不旨在将本公开的系统或方法、它们的组件、动作或要素限制为单个或复数配置。对基于任何信息、动作或要素的任何动作或要素的引用可以包括其中动作或要素至少部分地基于任何信息、动作或要素的实现方式。
本文公开的任何实现方式可以与任何其它实现方式相组合,并且对“实现方式”、“一些实现方式”、“可替代实现方式”、“各种实现方式”、“一个实现方式”等的引用不必需是相互排斥的,并且旨在指示结合实现方式描述的特定特征、结构或特性可以被包括在至少一个实现方式中。这里使用的这些术语不必需全部指相同的实现方式。任何实现方式可以以与本文公开的方面和实现方式一致的任何方式与任何其它实现方式相组合,包括地或排他地。
对“或”的引用可以被解释为包括性的,使得使用“或”描述的任何术语可以指示单个、多于一个、以及所有所描述的术语中的任何一个。
在附图、详细描述或任何权利要求中的技术特征后面跟随有附图标记的情况下,包括附图标记仅是为了增加附图、详细描述和权利要求的可理解性。因此,附图标记或它们的不存在对任何权利要求要素的范围都没有任何限制作用。

Claims (20)

1.一种用于提供内容候选的方法,包括:
在系统的第一数据结构中维护包括网页的域的第一数据集;
在所述系统的第二数据结构中维护包括内容候选子集的第二数据集;
由所述系统基于所述网页的所述域的语义内容来生成第一向量;
由所述系统基于从所述内容候选子集选择的第一内容候选的语义内容来生成第二向量;
由所述系统基于从所述内容候选子集选择的第二内容候选的语义内容来生成第三向量;
由所述系统确定在学习空间上的在所述第一向量和所述第二向量之间的第一距离;
由所述系统响应于所述第一距离满足距离阈值而将所述第一内容候选与所述网页的所述域相关联;
由所述系统确定在所述学习空间上的在所述第一向量和所述第三向量之间的第二距离;以及
由所述系统响应于所述第二距离不满足所述距离阈值而将所述第二内容候选与所述网页的所述域解除关联。
2.根据权利要求1所述的方法,其中,维护包括多个内容候选的第二数据集还包括:
由所述系统接收包括所述内容候选子集的多个内容候选;
由所述系统针对所述多个内容候选中的每一个监视与所述网页相关联的相应点进率;
由所述系统基于确定所述内容候选子集中的每一个的相应点进率满足比率阈值来选择所述内容候选子集;以及
在所述第二数据结构中存储所述内容候选子集。
3.根据权利要求1所述的方法,其中,基于所述网页的所述域的语义内容生成第一向量还包括:
由所述系统经由自然语言处理技术识别对于与所述网页相对应的web资源的引用;
由所述系统将所述网址分段成一个或多个语义内容候选;以及
由所述系统选择所述一个或多个语义内容候选中的一个作为所述域。
4.根据权利要求1所述的方法,其中,基于从所述内容候选子集选择的第一内容候选的语义内容来生成第二向量还包括:
由所述系统经由自然语言处理技术识别所述第一内容候选的链接的语义内容;以及
由所述系统基于所述第一内容候选的所述链接的所述语义内容来生成所述第二向量,并且
其中,基于从所述内容候选子集选择的第二内容候选的语义内容来生成第三向量还包括:
由所述系统经由所述自然语言处理技术识别所述第二内容候选的链接的语义内容;以及
由所述系统基于所述第二内容候选的所述链接的所述语义内容来生成所述第三向量。
5.根据权利要求1所述的方法,其中,确定在学习空间上的在所述第一向量和所述第二向量之间的第一距离还包括:
由所述系统识别所述第一内容候选关于所述网页的点进率;以及
由所述系统基于所述第一内容候选的所述点进率来计算所述第一向量和所述第二向量的点积作为所述第一距离,并且
其中,确定在所述学习空间上的在所述第一向量和所述第三向量之间的第二距离还包括:
由所述系统识别所述第二内容候选关于所述网页的点进率;以及
由所述系统基于所述第三内容候选的点进率来计算所述第一向量和所述第三向量的点积作为所述第二距离。
6.根据权利要求1所述的方法,还包括:
由所述系统迭代地确定所述第一距离小于所述距离阈值;
由所述系统迭代地向所述第一内容候选指配第一相关性分值以对选择所述第一内容候选进行优先级排序;以及
在所述第二数据结构中维护所述第一相关性分值。
7.根据权利要求1所述的方法,还包括:
由所述系统迭代地确定所述第二距离等于或大于所述距离阈值;
由所述系统迭代地向所述内容候选指配第二相关性分值以对选择所述第二内容候选进行降低优先级排序;以及
在所述第二数据结构中维护所述第二相关性分值。
8.一种系统,包括:
一个或多个硬件处理器,所述一个或多个硬件处理器由机器可读指令配置为:
在第一数据结构中维护包括网页的域的第一数据集;
在第二数据结构中维护包括内容候选子集的第二数据集;
基于所述网页的所述域的语义内容来生成第一向量;
基于从所述内容候选子集选择的第一内容候选的语义内容来生成第二向量;
由所述系统基于从所述内容候选子集选择的第二内容候选的语义内容来生成第三向量;
确定在学习空间上的在所述第一向量和所述第二向量之间的第一距离;
响应于所述距离满足距离阈值而将所述第一内容候选与所述网页的所述域相关联;
由所述系统确定在所述学习空间上的在所述第一向量和所述第三向量之间的第二距离;以及
由所述系统响应于所述第二距离不满足所述距离阈值而将所述第二内容候选与所述网页的所述域解除关联。
9.根据权利要求8所述的系统,其中,所述一个或多个处理器还被配置为:
接收包括所述内容候选子集的多个内容候选;
针对所述多个内容候选中的每一个,监视与所述网页相关联的相应点进率;
基于确定所述内容候选子集中的每一个的相应点进率满足比率阈值来选择所述内容候选子集;以及
在所述第二数据结构中存储所述内容候选子集。
10.根据权利要求8所述的系统,其中,所述一个或多个处理器还被配置为:
经由自然语言处理技术识别对于与所述网页相对应的web资源的引用;
将所述网址分段成一个或多个语义内容候选;以及
选择所述一个或多个语义内容候选中的一个作为所述域。
11.根据权利要求8所述的系统,其中,所述一个或多个处理器还被配置为:
经由自然语言处理技术识别所述第一内容候选的链接的语义内容;
基于所述第一内容候选的所述链接的所述语义内容来生成所述第二向量;
经由所述自然语言处理技术识别所述第二内容候选的链接的语义内容;以及
基于所述第二内容候选的所述链接的所述语义内容来生成所述第三向量。
12.根据权利要求8所述的系统,其中,所述一个或多个处理器还被配置为:
识别所述第一内容候选关于所述网页的点进率;以及
基于所述第一内容候选的所述点进率来计算所述第一向量和所述第二向量的点积作为所述第一距离;
识别所述第二内容候选关于所述网页的点进率;以及
基于所述第二内容候选的点进率来计算所述第一向量和所述第三向量的点积作为所述第二距离。
13.根据权利要求8所述的系统,其中,所述一个或多个处理器还被配置为:
迭代地确定所述第一距离小于所述距离阈值;
迭代地向所述第一内容候选指配第一相关性分值以对选择所述第一内容候选进行优先级排序;以及
在所述第二数据结构中维护所述第一相关性分值。
14.根据权利要求8所述的系统,其中,所述一个或多个处理器还被配置为:
迭代地确定所述第二距离等于或大于所述距离阈值;
迭代地向所述第二内容候选指配第二相关性分值以对选择所述第二内容候选进行降低优先级排序;以及
在所述第二数据结构中维护所述第二相关性分值。
15.一种存储程序指令的非暂时性计算机可读介质,所述程序指令用于使一个或多个处理器:
在第一数据结构中维护包括网页的域的第一数据集;
在第二数据结构中维护包括内容候选子集的第二数据集;
基于所述网页的所述域的语义内容来生成第一向量;
基于从所述内容候选子集选择的第一内容候选的语义内容来生成第二向量;
基于从所述内容候选子集选择的第二内容候选的语义内容来生成第三向量;
确定在学习空间上的在所述第一向量和所述第二向量之间的第一距离;
响应于所述第一距离满足距离阈值而将所述第一内容候选与所述网页的所述域相关联;
由所述系统确定在所述学习空间上的在所述第一向量和所述第三向量之间的第二距离;以及
由所述系统响应于所述第二距离不满足所述距离阈值而将所述第二内容候选与所述网页的所述域解除关联。
16.根据权利要求15所述的非暂时性计算机可读介质,其中,所述程序指令还使所述一个或多个处理器:
经由自然语言处理技术识别对于与所述网页相对应的web资源的引用;
将所述网址分段成一个或多个语义内容候选;以及
选择所述一个或多个语义内容候选中的一个作为所述域。
17.根据权利要求15所述的非暂时性计算机可读介质,其中,所述程序指令还使所述一个或多个处理器:
经由自然语言处理技术识别所述第一内容候选的链接的语义内容;
基于所述第一内容候选的所述链接的所述语义内容来生成所述第二向量;
经由所述自然语言处理技术识别所述第二内容候选的链接的语义内容;
基于所述第二内容候选的所述链接的所述语义内容来生成所述第三向量。
18.根据权利要求15所述的非暂时性计算机可读介质,其中,所述程序指令还使所述一个或多个处理器:
识别所述第一内容候选关于所述网页的点进率;
基于所述第一内容候选的点进率来计算所述第一向量和所述第二向量的点积作为所述第一距离;
识别所述第二内容候选关于所述网页的点进率;以及
基于所述第二内容候选的点进率来计算所述第一向量和所述第三向量的点积作为所述第二距离。
19.根据权利要求15所述的非暂时性计算机可读介质,其中,所述程序指令还使所述一个或多个处理器:
迭代地确定所述第一距离小于所述距离阈值;
迭代地向所述第一内容候选指配第一相关性分值以对选择所述第一内容候选进行优先级排序;以及
在所述第二数据结构中维护所述第一相关性分值。
20.根据权利要求15所述的非暂时性计算机可读介质,其中,所述程序指令还使所述一个或多个处理器:
迭代地确定所述第二距离大于所述距离阈值;
迭代地向所述第二内容候选指配第二相关性分值以对选择所述第二内容候选进行降低优先级排序;以及
在所述第二数据结构中维护所述第二相关性分值。
CN201980088855.5A 2019-06-26 2019-06-26 用于提供内容候选的系统和方法 Pending CN113330474A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2019/039273 WO2020263246A1 (en) 2019-06-26 2019-06-26 Systems and methods for providing content candidates

Publications (1)

Publication Number Publication Date
CN113330474A true CN113330474A (zh) 2021-08-31

Family

ID=67470630

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980088855.5A Pending CN113330474A (zh) 2019-06-26 2019-06-26 用于提供内容候选的系统和方法

Country Status (4)

Country Link
US (1) US20230122031A1 (zh)
EP (1) EP3899850A1 (zh)
CN (1) CN113330474A (zh)
WO (1) WO2020263246A1 (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080275775A1 (en) * 2007-05-04 2008-11-06 Yahoo! Inc. System and method for using sampling for scheduling advertisements in an online auction
WO2010014082A1 (en) * 2008-07-29 2010-02-04 Textwise Llc Method and apparatus for relating datasets by using semantic vectors and keyword analyses
US20110196737A1 (en) * 2010-02-05 2011-08-11 Microsoft Corporation Semantic advertising selection from lateral concepts and topics
US20110213655A1 (en) * 2009-01-24 2011-09-01 Kontera Technologies, Inc. Hybrid contextual advertising and related content analysis and display techniques
US20150356184A1 (en) * 2014-06-10 2015-12-10 Aol Inc. Systems and methods for optimizing the selection and display of electronic content
US20170199930A1 (en) * 2009-08-18 2017-07-13 Jinni Media Ltd. Systems Methods Devices Circuits and Associated Computer Executable Code for Taste Profiling of Internet Users

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10366117B2 (en) * 2011-12-16 2019-07-30 Sas Institute Inc. Computer-implemented systems and methods for taxonomy development
US10606883B2 (en) * 2014-05-15 2020-03-31 Evolv Technology Solutions, Inc. Selection of initial document collection for visual interactive search

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080275775A1 (en) * 2007-05-04 2008-11-06 Yahoo! Inc. System and method for using sampling for scheduling advertisements in an online auction
WO2010014082A1 (en) * 2008-07-29 2010-02-04 Textwise Llc Method and apparatus for relating datasets by using semantic vectors and keyword analyses
US20110213655A1 (en) * 2009-01-24 2011-09-01 Kontera Technologies, Inc. Hybrid contextual advertising and related content analysis and display techniques
US20170199930A1 (en) * 2009-08-18 2017-07-13 Jinni Media Ltd. Systems Methods Devices Circuits and Associated Computer Executable Code for Taste Profiling of Internet Users
US20110196737A1 (en) * 2010-02-05 2011-08-11 Microsoft Corporation Semantic advertising selection from lateral concepts and topics
US20150356184A1 (en) * 2014-06-10 2015-12-10 Aol Inc. Systems and methods for optimizing the selection and display of electronic content

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BERTHIER RIBEIRONETO等: "Impedance Coupling in Contenttargeted Advertising", PROCEEDINGS OF THE 28TH ANNUAL INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL, pages 496 - 503 *
DEEPAYAN CHAKRABARTI等: "Contextual Advertising by Combining Relevance with Click Feedback", REFEREED TRACK: SEARCH - RANKING & RETRIEVAL ENHANCEMENT, pages 417 - 426 *

Also Published As

Publication number Publication date
US20230122031A1 (en) 2023-04-20
EP3899850A1 (en) 2021-10-27
WO2020263246A1 (en) 2020-12-30

Similar Documents

Publication Publication Date Title
US20210349926A1 (en) Method of presenting excluded keyword categories in keyword suggestions
US9148398B2 (en) Prioritized and contextual display of aggregated account notifications
US11216852B2 (en) Systems and methods for automatically generating remarketing lists
CN108140196B (zh) 使用客户端生成的点击标识符减少内容项交互的时延的系统和方法
US9514220B1 (en) Generating content placement criteria based on a search query
JP6557357B2 (ja) モバイル・アプリケーションに関連付けられたコンテンツ・アイテムのデバイスベースのフィルタリング
US11989755B1 (en) Expansion of high performing placement criteria
US20200402098A1 (en) Systems and methods for assessing advertisement
US20210365962A1 (en) Systems and methods of selecting visual elements based on sentiment analysis
CN113330474A (zh) 用于提供内容候选的系统和方法
US9436454B1 (en) Scalable systems and methods for providing ordered update delivery
WO2014078995A1 (en) System and method for calculating predicted measure of content performance
JP7223164B2 (ja) データインテグリティの最適化
US20160371720A1 (en) Measuring call conversions for ads using aggregated call log data
US8832118B1 (en) Systems and methods of evaluating content in a computer network environment
US20150066967A1 (en) Determining search query hints using content keywords

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination