CN109074359B - 使用模型优化内容分发 - Google Patents

使用模型优化内容分发 Download PDF

Info

Publication number
CN109074359B
CN109074359B CN201680084301.4A CN201680084301A CN109074359B CN 109074359 B CN109074359 B CN 109074359B CN 201680084301 A CN201680084301 A CN 201680084301A CN 109074359 B CN109074359 B CN 109074359B
Authority
CN
China
Prior art keywords
content
party content
information
model
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680084301.4A
Other languages
English (en)
Other versions
CN109074359A (zh
Inventor
S.T.戴维斯
陈凯
M.J-K.王
W.江
M.塔瓦非
P.Z.蒂普顿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Priority to CN202310538434.6A priority Critical patent/CN116521907A/zh
Publication of CN109074359A publication Critical patent/CN109074359A/zh
Application granted granted Critical
Publication of CN109074359B publication Critical patent/CN109074359B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/10Architectures or entities
    • H04L65/1045Proxies, e.g. for session initiation protocol [SIP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0261Targeted advertisements based on user location

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

用于优化内容呈现的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。在一个方面,一种系统包括:训练数据库,所述训练数据库存储训练数据,所述训练数据包括关于用户的属性信息和对所述用户在内容呈现之后的行为进行量化的对应代理度量;内容数据库;模型生成器,所述模型生成器访问所述训练数据并训练针对内容分发的模型;以及内容分发服务器,所述内容分发服务器接收内容请求、使用所述模型选择内容并且传输识别所选择内容的数据,其中,所述模型:获得针对与所述请求关联的用户的一组属性、接收关于给定内容的信息、基于所述一组属性和关于内容的信息预测代理度量,所预测的代理度量提供关于主题保持或意识的信息;以及如果所预测的代理度量达到阈值则识别给定内容用于分发。

Description

使用模型优化内容分发
技术领域
本说明书涉及优化内容呈现。
背景技术
可以分发视频内容以呈现在各种客户端设备(例如互联网上的移动设备和个人计算机)上。可以以各种方式选择针对特定用户提供的内容的类型以便呈现特定用户感兴趣的内容。
发明内容
总体上,本说明中描述的主题的一个创新性方面可以体现在一种系统中,所述系统包括:训练数据库,所述训练数据库存储训练数据,所述训练数据包括关于多个用户的属性信息和量化内容呈现之后所述多个用户的在线行为的对应代理度量;内容数据库,所述内容数据库存储从各种第三方内容提供者接收的第三方内容;模型生成器,所述模型生成器访问所述训练数据库中的所述训练数据并且基于所述训练数据训练针对第三方内容分发的模型;以及内容分发服务器,所述内容分发服务器接收对于要在客户端设备处与内容的另一部分一起呈现的第三方内容的请求,其中所述内容分发服务器使用所述模型来响应于所述请求选择要被分发到所述客户端设备的第三方内容并且将识别所选择第三方内容的数据传输到所述客户端设备,其中,所述模型:从所述请求获得一组属性,其中,所述一组属性与关于与所述请求关联的用户的信息相关,接收关于存储在所述内容数据库中的给定第三方内容的信息,基于所述一组属性和关于所述第三方内容的所述信息预测针对所述给定第三方内容的代理度量,其中,预测的代理度量提供关于将归因于所述给定第三方内容的呈现而导致的主题保持或主题意识中的至少一个的信息;以及
使用预测的代理度量并且针对所述内容分发服务器,基于达到阈值的预测的代理度量识别给定第三方内容供分发。该方面的其他实施例包括对应的方法、装置和配置为执行方法的动作的编码在计算机存储设备上的计算机程序。
这些和其他实施例均可以可选地包括一个或多个下述特征。在一些实现方式中,所述内容数据库中关于所述给定第三方内容的所述信息包括所述给定第三方内容的类别、所述给定第三方内容的持续时间和所述给定第三方内容的专题内容中的至少一个。所述训练数据库还可以接收与向所述客户端设备显示特定第三方内容关联的代理度量,并且所述模型生成器还使用所接收的与向所述客户端设备显示所述特定第三方内容关联的代理度量重新训练所述模型。在一些实现方式中,所述模型还对属性信息的某些类别加权并且基于加权的属性信息预测代理度量。
对于第三方内容的所述请求不包含已知属性信息,但是所述模型可以不管属性信息地识别训练数据。在一些实现方式中,所述代理度量包括在视频内容上的点击、与视频内容关联的观看时间、与视频内容关联的跳过时间、与视频内容关联的可视性度量和与视频内容关联的可听性中的至少一个。在一些实现方式中,从各种第三方内容提供者接收的第三方内容的每个第三方内容包括对于主题保持或主题意识的偏好。
在一些实现方式中,所述模型基于所述偏好识别所述给定第三方内容。在一些实现方式中,所述模型生成器识别并存储特定代理度量和主题保持之间的相关性。在一些实现方式中,所述模型生成器识别并存储特定代理度量和主题意识之间的相关性。在一些实现方式中,所述模型使用逻辑回归机器学习和线性回归机器学习中的至少一个来预测所述代理度量。
本说明中描述的主题的另一个创新性方面可以体现在一种计算机实现的方法,所述方法包括:在训练数据库中存储训练数据,所述训练数据包括关于多个用户的属性信息和量化内容呈现之后的在线行为的对应代理度量;在内容数据库中存储从各种第三方内容提供者接收的第三方内容;通过模型生成器访问所述训练数据库中的所述训练数据并且基于所述训练数据库训练针对第三方内容分发的模型;通过内容分发服务器接收对于要在客户端设备处与内容的另一部分一起呈现的第三方内容;通过所述内容分发服务器并且使用所述模型选择响应于所述请求要分发到所述客户端设备的第三方内容,其中,所述模型:从所述请求获得一组属性,其中,所述一组属性与关于与所述请求关联的用户的信息相关,接收关于存储在所述内容数据库中的给定第三方内容的信息,基于所述一组属性和关于所述第三方内容的所述信息预测针对所述给定第三方内容的代理度量,其中,预测的代理度量提供关于将归因于所述给定第三方内容的呈现而导致的主题保持或主题意识中的至少一个的信息;以及使用预测的代理度量并且针对所述内容分发服务器,基于达到阈值的预测的代理度量识别给定第三方内容供分发;以及通过所述内容分发服务器向所述客户端设备传输识别所选择第三方内容的数据。
这些和其他实施例均可以可选地包括一个或多个下述特征。在一些实现方式中,所述内容数据库中关于所述给定第三方内容的所述信息包括所述给定第三方内容的类别、所述给定第三方内容的持续时间和所述给定第三方内容的专题内容中的至少一个。在一些实现方式中,所述方法还包括通过所述训练数据库接收与向所述客户端设备显示特定第三方内容关联的代理度量,以及使用所接收的与向所述客户端设备显示所述特定第三方内容关联的代理度量重新训练所述模型。在一些实现方式中,所述模型还对属性信息的某些类别加权并且基于加权的属性信息预测代理度量。在一些实现方式中,所述代理度量包括在视频内容上的点击、与视频内容关联的观看时间、与视频内容关联的跳过时间、与视频内容关联的可视性度量和与视频内容关联的可听性中的至少一个。在一些实现方式中,从各种第三方内容提供者接收的第三方内容的每个第三方内容包括对于主题保持或主题意识的偏好。在一些实现方式中,所述方法还包括:识别并存储特定代理度量和主题保持之间的相关性。在一些实现方式中,所述方法还包括:识别并存储特定代理度量和主题意识之间的相关性。
本说明中描述的主题的另一个创新性方面可以体现在一种计算机可读介质中,计算机可读介质可以是非暂态计算机可读介质,但是这个方面不限于此,计算机可读介质具有存储在其上的指令,所述指令在由一个或多个处理器执行时导致操作的执行,所述操作包括本文所述的任一方法。
在线内容的提供者具有与呈现其内容关联的各种目标。一些内容提供者关注于驱动与内容关联的主题(例如特定事业或品牌)的意识。关注于驱动主题意识的内容提供者优先考虑的是使人们按照顺序看到内容以获知并且意识到与内容有关的主题或话题。一些内容提供者具有改善与内容关联的主题的保持的目标。特别地,内容提供者希望观看者记得他们先前看过的内容并且在稍后时间能够回想与内容关联的主题或话题。但是,不管特定内容提供者的目标是什么,内容提供者始终希望以资源高效的方式向用户提供内容。例如,内容提供者会希望通过减少网络向用户设备承载的数据量来节省将内容提供者与一个或多个用户设备连接的通信网络的带宽(例如,局域网、广域网、无线网和/或互联网)。如果给用户发送他们不感兴趣的内容,则实际上浪费了向用户发送该内容所使用的网络资源。本文描述的实现方式可以帮助内容提供者优化其内容呈现和分发,以便提供内容的资源高效的呈现和分发同时仍然满足内容提供者的目标,例如,改善主题意识或主题保持中的至少一个。
当在本文中使用时,属性信息涉及关于用户的信息,例如人口统计信息。代理度量指定量值,其与响应于观看内容的用户行为有关,包括视频点击、内容观看时间、跳过时间和可视性。
第三方内容可以指第三方提供的任何类型的内容,包括文本、图像、视频文件、声音剪辑或其组合。第三方内容的示例是视频剪辑。主题保持指用户在稍后时间将会记得涉及内容项目的主题或话题的可能性。主题意识指某个人是否熟悉涉及内容项目的特定主题或话题或某个人熟悉涉及内容项目的特定主题或话题的程度。
本说明书中描述的主题的特定实现方式可以被实现为实现一个或多个下述优点。技术通过使得内容提供者能够选择用户更有可能感觉有趣并且与之交互的内容来提供对内容的更资源高效的呈现和分发,并且从而减少向用户发送用户不感兴趣的内容的网络资源浪费。额外地,本文描述的实现方式允许在没有直接指示用户将会如何对内容进行响应的数据的情况下进行资源高效的内容呈现。例如,当不能获得充足的直接测量的用户响应数据时,替代地,本文描述的实现方式提供使用代理度量作为用于对内容呈现的可能用户响应的指示符。另外,本文描述的特定实现方式取得其他益处,包括在不知道关于特定用户的兴趣的数据的情况下的增加的灵活性和不需要存储关于特定用户的数据的情形下的较小的存储器需求。
本说明书中描述的主题的一个或多个实现方式的细节在附图和下面的说明书中阐述。根据说明书、附图和权利要求书,所述主题的其他特征、方面和优点将变得明了。
附图说明
图1是在其中内容分发系统管理内容的分发的示例环境的框图。
图2是用于优化内容分发的示例过程的流程图。
图3是示出用于视频内容的训练数据的表。
图4是示出用于视频内容的额外示例训练数据的表。
图5是用于选择第三方内容以进行显示的示例过程的流程图。
图6A-6B是示出用于视频内容的训练数据的其他示例的表。
图7是可以用于实现本文所述的计算机实现的方法和其他技术的计算设备和移动计算设备的示例。
各附图中同样的参考数字和标记指示同样的元素。
具体实施方式
本文描述使用代理度量来优化特定主题的主题“提升(lift)”或兴趣上升。例如,当与主题“提升”有关的信息不能通过反馈环路或另一反馈机制直接获得时,可使用具有与直接可测量度量(其与涉及特定主题的“提升”度量有关)的强相关性的代理度量来生成预测模型,该代理模型可以预测将会由内容的各种部分提供的预期“提升”(例如,基于内容的属性)。“提升”度量涉及定量值,其指示已经被披露于内容的给定部分的用户对特定主体的兴趣、意识或回想的上升,例如已经被披露于内容的给定部分的用户的主题保持和主题意识。
涉及视频内容的显示的具有与主题提升的强相关性的示例代理度量包括在视频内容上的任何物理点击、内容观看时间、内容跳过时间、可视性和可听性。在内容上物理点击包括用户在内容上的点击(例如,用户在被呈现的视频上点击,或在与提供内容的第三方关联的网址的链接上点击)。内容观看时间指在视频被停止或视频在其中正在被呈现的应用(例如,网页或视频播放器应用)被关闭之前视频内容在客户端设备处被呈现的时间量。内容跳过时间指在跳过或略过观看可跳过视频内容的输入(例如,以观看其他内容)中断(例如,停止或跳过)可跳过视频内容的回放之前可跳过视频内容在客户端设备处被呈现的时间量。可视性指用户实际上物理上亲临和观看所显示内容的可能性。例如,如果用户正在计算机上显示的其他区域上点击或与计算机上显示的内容交互,则用户有可能亲临并且能够观看内容。可听性指用户实际上物理上亲临和收听具有音频的所提供内容的可能性。例如,可以通过识别用户的计算设备的音频水平来确定用户是否能够听到音频内容来确定可听性。
本申请讨论使用这些代理度量(其与主题提升度量相关)以优化内容呈现。例如,本申请讨论训练使用代理度量训练数据的模型来预测将后续被显示的内容的代理度量。可以选择具有高于预定阈值(例如,高于平均或其他当前值)的预测代理度量的内容进行呈现以便优化(或以其他方式提高)涉及内容的主题的主题保持或主题意识。
图1是用于使用代理度量来优化内容呈现的示例环境100的示意图。在一些实现方式中,示例环境通过分析对于属性的代理度量,响应于对于内容104的请求和与请求关联的属性来选择内容。
示例环境100包括数据通信网络102,例如局域网(LAN)、互联网或其组合。网络102使得多个电子设备和系统之间能够进行数据通信。特别地,网络102连接客户端设备106、内容分发服务器108、内容数据库110、训练数据库112、多个第三方内容提供者114和模型生成器116。网络的通信链路可以是有线或无线链路或二者。客户端设备106是在用户的控制下并且能够通过网络102请求和接收资源的电子设备。示例客户端设备106包括膝上型计算机、台式计算机、能够流传输在线视频内容的电视设备、移动通信设备(例如,智能电话、平板计算设备、上网本、笔记本计算机或可穿戴设备)和能够通过网络102发送和接收数据的其他设备。
客户端设备106通常包括用户应用(例如网页浏览器)以便于通过网络102发送和接收数据。内容分发服务器108、内容数据库110、训练数据库112和模型生成器116可以包括膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片服务器、大型机和其他适当的计算机。服务器一般可以包括一个或多个计算机的集合并且可以在处于一个或多个地理上分离的位置的一个或多个计算机上执行处理。
在许多情况下,内容提供者114可以包括根本地(organically)创建其自己的内容(例如视频)以与其他人共享的各方,但是内容提供者114还可以涉及上传实际上由一个或多个其他实体创建的内容但是第一方希望将其共享的各方。内容提供者114可以向内容数据库110上传原创内容。内容数据库110总体上负责存储已经被使得可以进行分发的第三方内容。
内容分发服务器108、内容数据库110和训练数据库112以及模型生成器116中的每一个一般可以被实现为处于一个或多个位置的一个或多个计算机(例如相对于图7描述的计算机)的硬件和软件的组合。内容分发服务器108、内容数据库110和训练数据库112以及模型生成器116中的每一个可以包括相应的网络接口以能够进行网络通信。在一些实现方式中,分发服务器108、内容数据库110和/或训练数据库中的一个或多个可以在使用多个不同的计算机和/或服务器来处理数据的分布式计算环境中实现。
在一些实现方式中,客户端设备106通过网络提交对于内容104的请求。客户端设备106的用户可以浏览在客户端设备106上的网页浏览器中的内容,例如HTML页面、电子文档、图像文件、视频文件和音频文件。例如,所请求的网页可以包括向内容分发服务器108请求的特定内容118。所请求的内容118可以在客户端设备处与内容的另一部分一起呈现。为了确定要提供哪个内容以在客户端设备106上呈现,内容分发服务器108可以使用模型以从内容数据库110选择第三方内容。
使用访问在训练数据库112中存储的训练数据的模型生成器116来生成模型。训练数据库112存储训练数据,训练数据包括包含属性信息(例如,用户人口统计)和对应代理度量的各种数据。代理度量对在呈现特定内容之后用户的在线行为进行量化并且与展现在线行为的用户或多个用户的特定属性信息对应。例如,训练数据库可以存储训练数据,训练数据在所存储的数据当中包括指示18-24岁之间的男人在被呈现与跑车有关的视频时趋向于积极地响应(例如,通过在视频内容上点击或具有长的内容观看时间)的数据。训练数据库可以类似地存储指示18-24岁之间的女人在被呈现与跑车有关的相同视频时趋向于消极地响应(例如,通过跳过视频内容或具有短的内容观看时间)的训练数据。在图3、4和6A-6B中示出了训练数据的示例,将在下面进一步讨论。
当内容分发服务器108接收对于要在客户端设备处呈现的第三方内容104的请求时,内容分发服务器108响应于请求104,使用由模型生成器116生成的模型来选择要被分发给客户端设备的第三方内容。模型首先通过从针对内容的请求获得一组属性来识别用于呈现的内容。模型然后识别与和来自针对内容的请求的一组属性信息相匹配的属性信息对应的代理度量(例如,在存储的训练数据库112中)。接下来,模型接收关于在内容数据库110中存储的特定第三方内容的信息。基于来自针对内容104的请求的一组属性、与一组属性对应的代理度量和关于所述特定第三方内容的信息,模型然后预测针对所述特定第三方内容的一组属性的代理度量。
在一些实现方式中,所预测的代理度量与主题保持或主题意识中的至少一个相关。也就是说,随着所预测的代理度量的值增加,存在涉及内容的主题的用户回忆或涉及内容的主题的用户意识的对应增加。模型然后基于达到或超过阈值(例如,预先指定的值)的所预测的代理度量来选择第三方内容。内容分发服务器108随后将识别所选择的第三方内容的数据传输到客户端设备106。在一些实现方式中,在模型基于所预测的代理度量选择第三方内容之后,调整与第三方内容关联的选择标准。
图2是用于优化内容呈现的示例过程200的流程图。在202,训练数据库112存储训练数据。训练数据包括包含属性信息(例如,用户人口统计)和相应代理度量的各种数据。代理度量对在呈现特定内容之后用户的在线行为进行量化并且与展现在线行为的用户或多个用户的特定属性信息对应。代理度量的示例包括在内容上的物理点击、内容观看时间、内容跳过时间、可视性和可听性。
训练数据库112可以存储包括不同属性信息的各种数据。例如,训练数据库112可以存储训练数据,训练数据包括指示18-24岁之间的男人在被呈现与跑车有关的视频时趋向于积极地响应(例如,通过在视频内容上点击或具有长的内容观看时间)的数据。训练数据库112可以类似地存储指示18-24岁之间的女人在被呈现与跑车有关的相同视频时趋向于消极地响应(例如,通过跳过视频内容或具有短的内容观看时间)的训练数据。这种趋势可以通过对于18-24岁之间的男人在训练数据库112中具有大量训练数据的条目而显示,其中对应的代理度量显示对于涉及跑车的视频的积极响应,例如如图3所示。
在图3所示的示例训练数据中,给18-24岁之间的十四个用户(包括男性和女性)呈现涉及跑车的视频内容。视频内容具有2分钟的长度。第一列标识用户,第二列标识用户是男性还是女性,第三列指示用户的年龄,并且第四列标识用户观看2分钟视频花费的时间量。所有十四个用户的平均观看时间约为59秒。但是,女性用户的平均观看时间仅约为27秒,而男性用户的平均观看时间约为91秒。因此,训练数据显示18-24岁之间的男性用户比18-24岁之间的女性用户趋向于更积极地响应涉及跑车的视频内容(例如,通过观看更多视频内容)。尽管在训练数据中存在离群值(例如,用户5是观看了几乎全部的跑车视频内容的21岁女性;用户11是观看了仅7秒的跑车视频内容的22岁男性),但是可以在代理度量和属性信息中看到总体趋势。
在另一示例中,如图4所示,训练数据库112可以存储训练数据,训练数据包括指示18-24岁之间的男人和女人在被呈现涉及将要上映的闹剧喜剧电影时都趋向于积极响应而65岁和以上的男人和女人在被呈现相同内容时都趋向于消极响应的数据。与图3相同,第一列标识用户,第二列标识用户是男性还是女性,第三列指示用户的年龄,并且第四列标识用户观看两分钟视频花费的时间量。所有十四个用户的平均观看时间约为1分10秒。18-24岁之间的男性和女性用户的平均观看时间约为1分42秒而65岁以上的男性和女性用户的平均观看时间约为38秒。因此,训练数据显示18-24岁之间的男性和女性用户都比65岁以上的男性和女性用户趋向于更积极地响应涉及闹剧喜剧的视频内容(例如,通过观看更多视频内容)。尽管在数据中存在离群值(例如,用户12是77岁的女性,她观看了整个2分钟的闹剧喜剧预告片),但是可以在代理度量和属性信息中看到总体趋势。
在204,内容数据库接收并存储来自一个或多个第三方内容提供者114的第三方内容。内容可以呈包含各种资源(asset)(例如,HTML内容、
Figure BDA0001816784730000091
图像文件、视频文件等)的压缩文件的形式。在一些实现方式中,内容可以呈未被压缩的单个内容文件(例如,视频文件)的形式。内容数据库110可以包括所有内容的索引,包括给定内容项目的标题、短文字描述和创建者ID。
在一些实现方式中,第三方内容提供者114可以与第三方内容一起包括用于驱动主题意识或主题保持的偏好。第三方内容提供者114可以指示驱动主题意识或主题保持或二者的需求。通过使用用于优化主题意识或主题保持的特定模型,可以在选择用于呈现的内容时将该偏好考虑在内。希望增加涉及其内容的特定主题或话题的意识的第三方内容提供者114需要使得在观看其内容之后用户有可能意识到主题或话题。希望驱动主题保持的第三方内容提供者114可能关注于将其内容呈现给在内容呈现之后某个时间量(例如,在看过内容之后两周)将有可能记得看过或记得被呈现过其内容的那些用户。在没有直接指示主题“提升”的可能性的数据的情况下,可以使用其他数据作为主题“提升”数据的代理。这种其他数据可以从用户的属性和内容的属性已知的各个用户通过直接反馈而获得。
在206,模型生成器116访问训练数据库112中的训练数据并且训练用于内容分发的模型。在一些实现方式中,可以使用允许大规模监督式机器学习的框架来训练模型。在一些实现方式中,逻辑回归和线性回归被用作用于训练模型的机器学习算法。例如,逻辑回归可以被用于物理点击、可视性和可听性,而线性回归可以被用于观看时间和跳过时间。模型生成器116使用各种类型的信息来训练模型,包括有关第三方内容的特征和有关用户的属性。有关第三方内容的特征的示例包括内容的持续时间(例如,视频剪辑的长度)、与内容关联的第三方内容提供者和内容的主题或类别(例如,内容是否涉及跑车、旅行目的地或女士服装)。有关用户的属性的示例包括用户是男性还是女性、用户的年龄或与用户关联的年龄段、用户的兴趣和与用户关联的位置。
可以使用第三方内容的特征和属性针对每个代理度量生成和训练各个模型。例如,模型生成器116可以针对与视频点击有关的代理度量生成第一模型,针对与可视性有关的代理度量生成第二模型,针对与观看时间有关的代理度量生成第三模型,针对与跳过时间有关的代理度量生成第四模型等。可以针对每个模型在框架中调整各个参数(例如,正则化参数)。可以调整参数以避免对训练数据的过拟合。过拟合指的是模型提取细粒度特征并且将较高权重分配给它们的情况,这导致较低的准确性。调整涉及测试参数的不同值以确定测试数据会如何影响模型的准确度。在一些实现方式中,用新的训练数据定期(例如,每三分钟)更新模型。可以每当用户被呈现第三方内容就采集训练数据。
模型可以存储在服务器中,例如在内容分发服务器108中。在模型不存储在内容分发服务器108的实现方式中,内容分发服务器108可以通过网络102访问在远程数据库或服务器中的模型。
在208,内容分发服务器108接收对于第三方内容的请求。所述请求可以针对要在客户端设备处与内容的另一部分一起呈现的第三方内容。所请求的内容可以针对文本、图像、视频内容、音频内容或其任何组合。请求可以与某些属性关联。在一些实现方式中,请求可以包括与请求内容的用户和/或客户端设备关联的一组属性。例如,请求可以识别请求内容的客户端设备的类型,例如智能电话或个人计算机。请求还可以识别客户端设备的具体类型,包括客户端设备的制造商和型号。在一些实现方式中,请求可以识别在客户端设备上运行的操作系统或与针对第三方内容的请求关联的应用。这些属性可以帮助选择匹配设备能力的适当内容。
在一些实现方式中,请求可以识别与客户端设备的用户关联的一组属性。所述一组属性可以例如包括关于客户端设备的用户的人口统计信息,例如包括用户的性别、年龄、位置和兴趣。在一些实现方式中,请求可以识别与用户正在观看或已经被呈现的内容关联的一组属性以便更好地选择要关联于该内容而呈现的第三方内容。例如,如果用户正在观看与特定类别(例如汽车或烹饪)关联的视频,则可能有利的是选择涉及相同话题的额外的第三方内容以呈现给用户,使得用户更可能对该额外的第三方内容感兴趣。
在210,内容分发服务器108响应于请求而选择第三方内容。特别地,内容分发服务器108访问由模型生成器116生成的模型以便选择第三方内容。下面参考图5更详细地描述使用模型来选择第三方内容的过程。
在212,内容分发服务器108传输识别所选择的第三方内容的数据。在一些实现方式中,内容分发服务器108向客户端设备106传输识别所选择的第三方内容的数据。在一些实现方式中,传输到客户端设备106的数据包括发起对所选择的第三方内容的呈现的机器可读指令。例如,所述指令可以使客户端设备106向将从其获得所选择的第三方内容的另一在线服务器发起请求。替代地,所选择的第三方内容可以包括在传输到客户端设备106的数据中,并且所述指令可以使客户端设备106将第三方内容呈现在客户端设备106的显示器中。
图5是用于借助模型选择内容的示例过程500的流程图。在一些实现方式中,可以由内容分发服务器108、模型生成器116、单独的内容分发系统或其任何组合来执行过程500的一些或所有操作。可以例如使用训练数据由模型生成器116训练在下面讨论的模型,训练数据包括在训练数据库112中存储的属性信息和代理度量。出于示意的目的,宽泛地关于内容分发系统来讨论过程500,但是其可以通过内容分发服务器108、模型生成器116和单独的内容分发系统的任意组合来实现。
在502,内容分发系统从针对第三方内容的请求获得一组属性。例如,针对第三方内容的请求可以识别请求来自于明尼阿波里斯(MN)正使用智能电话设备的22岁男性用户所使用的客户端设备。额外地或替代地,所述一组属性可以与用户已经正在观看或准备观看的内容有关。例如,对于第三方内容的请求可以识别用户已经正在观看的视频涉及特定类别,比如体育、汽车或烹饪。
在504,内容分发系统接收关于在内容数据库中存储的给定第三方内容的信息。继续上面的示例,内容分发系统可以识别与明尼苏达冰球曲棍球队有关的内容项目。关于该内容项目的信息可以指示内容项目是视频剪辑、视频剪辑是2分钟长并且与视频剪辑有关的关键词包括“体育”、“曲棍球”、“明尼苏达”和“冰球”。
在506,内容分发系统使用模型,基于来自请求的一组属性和关于第三方内容的信息来预测针对给定第三方内容的代理度量。在一些实现方式中,模型可以通过接收来自请求的一组属性和关于第三方内容的信息、识别分配给所接收的属性和信息的权重并且计算代理度量来预测代理度量。模型可以具有基于之前数据的预定权重值,使得需要在模型预测代理度量的同时计算权重。所预测的代理度量可以提供关于将由给定第三方内容的呈现导致的主题保持或主题意识中的至少一个的信息。在一些实现方式中,第三方内容提供者114可以包括对于主题保持或主题意识的偏好。
如上所述,某些代理度量具有与主题意识或主题拒绝中的至少一个的强相关性。为了确定特定代理度量(例如观看时间)和主题意识或主题回想之间的相关性,第三方内容提供者可以提供其内容以进行分析。可以将用户随机地分配到披露群组或控制群组。来自第三方内容提供者的一方显示给披露群组中的用户但是不显示给控制群组的用户。在用户被分配到一个群组并且被披露于或不被披露于第三方内容之后的某时间量,询问来自两个群组的用户多个问题(例如,他们是否最近看过第三方内容)。针对被询问特定问题的披露群组和控制群组之间的积极响应率之间的差异称为对于该问题的主题提升。例如,具有100个用户的披露群组中的每个用户可以被显示电影A的预告片,且在具有100个用户的控制群组中的用户可以不被显示该电影预告片。然后在两天之后,询问来自披露群组和控制群组的用户他们是否已经看过电影A的电影预告片。如果披露群组中的80个用户回答他们已经看过电影A的电影预告片并且控制群组中的0个用户回答他们已经看过电影A的电影预告片,则对于该问题的主题提升是80。不幸的是,相对于主题提升度量可用的数据不多。因此,使用已经被显示为具有与主题提升的强相关性的某些代理度量(比如在内容上的物理点击、与视频内容关联的观看时间、与视频内容关联的跳过时间和可视性度量)尤为有益。主题提升还可以涉及主题意识和主题保持。一般说来,大多数代理度量具有与主题意识的强相关性,并且观看时间和跳过时间具有与主题保持的强相关性。
如上所述,第三方内容提供者114可以与其提供的第三方内容一起包括用于驱动主题意识或主题保持或二者的偏好。在某些实现方式中,可以在选择内容进行呈现时将该偏好考虑在内。
继续上面的示例,内容分发系统基于用户的一组属性(男性;22岁;明尼阿波里斯;智能电话)和关于第三方内容的信息(涉及“体育”、“曲棍球”、“明尼苏达”和“冰球”的2分钟长视频剪辑),针对明尼苏达冰球曲棍球队视频剪辑来预测代理度量。例如,内容分发系统可以识别图6A和6B所示的代理度量。图6A和6B所示的代理度量和属性信息可以存储在训练数据库112中并由模型生成器116使用以生成模型。图6A和6B包括代理度量和属性信息。例如,第二、第三和第四列包括属性信息(男/女,年龄,位置)并且第五列包括代理度量(观看时间)。图6A显示被呈现过与明尼苏达海员相关的视频内容的十八个用户的观看时间,并且图6B显示被呈现过与所有时间的前十名曲棍球进球相关的视频内容的十八个用户的观看时间。列指示用户是男性还是女性、用户的年龄、用户的位置以及内容的观看时间。
图6A显示与明尼苏达海员相关的2分钟剪辑的训练数据的平均观看时间是1分4秒。然而,与示例中的用户匹配的用户——即,在明尼阿波利斯的仅年龄在18-24岁之间的男性——的平均观看时间大约是1分41秒。正如可以预料的那样,训练数据显示明尼苏达州以外来自伊利诺伊、密歇根和威斯康星的用户对与明尼苏达海员有关的视频剪辑几乎没有兴趣,但来自明尼阿波利斯的用户,尤其是18-24岁之间的男性用户,观看时间较长。
图6B涉及与所有时间的前十名曲棍球进球相关的2分钟视频剪辑。图6B中所示的训练数据显示该视频剪辑的平均观看时间是1分6秒。然而,与示例中的用户匹配的用户——即,在明尼阿波利斯的仅年龄在18-24岁之间的男性——的平均观看时间大约是1分51秒。
图6A和6B中所示的训练数据,特别是位于明尼阿波利斯(MN)、并且年龄在18-24岁之间的男性的训练数据,可用于预测明尼苏达冰球视频剪辑的代理度量。例如,图6A中的训练数据与关于明尼苏达海员的视频剪辑关联,该视频剪辑可以与关键词“体育”、“足球”,“明尼苏达”和“海员”关联;图6B中的训练数据与关于所有时间的前十名曲棍球进球的视频剪辑关联,该视频剪辑可以与关键词“体育”、“曲棍球”、“进球”和“亮点”关联。因此,图6A和6B中所示的训练数据与涉及明尼苏达冰球——即“体育”、“明尼苏达”和“曲棍球”——的第三方内容共享相似的主题或话题。基于此训练数据,然后内容分发系统可以预测针对特定用户的代理度量,例如1分46秒的预测观看时间(即,对于分别具有在图6A和6B中的共享属性的用户的平均观看时间,1分41秒和1分51秒的平均值)。
在508,内容分发系统确定预测的代理度量达到或超过对于给定第三方内容的阈值。阈值可以是预设值或百分比(例如,观看时间是视频剪辑的整个长度的某个百分比)。在一些实现方式中,阈值可以基于平均值。在上面的示例中,阈值可以是对于给定第三方内容的平均观看时间。例如,当被提供给用户进行呈现时,明尼苏达冰球视频剪辑可以具有1分25秒的平均观看时间。因此,如果对于观看时间的预测的代理度量是1分46秒,则内容分发系统确定1分46秒的预测的代理度量超过1分25秒的阈值。在一些实施例中,第三方内容提供者可以限定阈值或限定用于确定阈值的一个或多个参数。
在一些实现方式中,可以训练模型以对模型中的某些属性加权。例如,如果特定属性比其他属性更重要,则模型可以与其他属性相比对该属性加权。在这些实现方式中,内容分发系统基于属性的经加权值来预测(一个或多个)代理度量。
在510,内容分发系统基于预测的代理度量来识别给定第三方内容用于分发。继续上述示例,响应于确定1分46秒的预测的代理度量超过1分25秒阈值,内容分发系统识别用于呈现和用于内容分发服务器的明尼苏达冰球视频剪辑。
在一些实现中,在内容分发系统基于预测的代理度量来识别用于分发的给定第三方内容之后,内容分发服务器增加与给定第三方内容相关的选择标准的值。内容分发系统可以选择多个第三方内容项目用于分发并向每个第三方内容项目分配在预测的代理度量上评估的相应选择标准值。例如,预测的代理度量越高,相应选择标准越高。具有更高选择标准值的第三方内容项目可以更有可能被选择为呈现在客户端设备上。
图6A和6B中所示的训练数据可以进一步用于说明某些内容如何可能不适于内容呈现。例如,在502,对于第三方内容的请求可以识别该请求来自于在明尼阿波利斯的19岁女性用户所使用的客户端设备。在504,内容分发系统识别与明尼苏达冰球有关并且与关键词“体育”、“曲棍球”、“明尼苏达”和“冰球”有关的2分钟视频剪辑。
在506,内容分发系统基于对于用户(女性;19岁;明尼阿波利斯)的一组属性和关于第三方内容的信息(与“体育”、“曲棍球”、“明尼苏达”和“冰球”有关的2分钟长视频剪辑)预测针对明尼苏达冰球视频剪辑的代理度量。图6A显示在明尼阿波利斯的年龄在18-24岁之间的女性对于明尼苏达海员的视频剪辑具有48秒的平均观看时间,相比平均值为1分4秒。图6B显示明尼阿波利斯年龄在18-24岁之间的女性对于前十个曲棍球进球具有45秒的平均观看时间,相比平均值为1分6秒。内容分发系统然后可以使用模型基于明尼苏达冰球视频剪辑与明尼苏达海员视频剪辑和前十个曲棍球进球视频剪辑两者之间的相似性,针对明尼阿波利斯19岁女性对于明尼苏达冰球视频剪辑预测47.5秒(对45秒和48秒平均)的代理度量。基于47秒的所预测的代理度量(观看时间),内容分发系统可以确定所预测的代理度量未达到或超过对于给定第三方内容的阈值(例如,1分25秒的平均观看时间),因此内容分发系统不选择特定第三方内容进行显示。在一些实现方式中,在内容分发系统确定对于给定第三方内容的预测的代理度量未达到阈值之后,内容分发服务器减小与给定第三方内容有关的选择标准的值。
内容分发系统可以针对多个第三方内容项目重复步骤504和506,直到对于特定第三方内容项目的预测的代理度量超过对于特定第三方内容项目的阈值。通过步骤504和506的每个循环,内容分发服务器可以基于相应的预测的代理度量来相应地针对每个第三方内容项目向上或向下调整相应的选择标准。
图7示出可以用于实现本文所述的计算机实现的方法和其他技术的计算设备700和移动计算设备的示例。计算设备700旨在代表各种形式的数字计算机,例如膝上型计算机、台式机、工作站、个人数字助理、服务器、刀片服务器、大型机、和其它适合的计算机。移动计算设备旨在代表各种形式的移动设备,例如个人数字助理、蜂窝电话、智能电话和其他类似的计算设备。在本文示出的部件、它们的连接和关系以及它们的功能应当仅是示例性的,而不应当限制本发明描述和/或在本文件中请求保护的实现方式。
计算设备700包括处理器702、存储器704、存储设备706、连接到存储器704和多个高速扩展端口710的高速接口708以及连接到低速扩展端口714和存储设备706的低速接口712。处理器702、存储器704、存储设备706、高速接口708、高速扩展端口710和低速接口712中的每一个使用各种总线而互连,并且可以安装在公共的主板上或酌情以其他方式安装。处理器702可以处理用于在计算设备700内执行的指令,包括在存储器704中或在存储设备706上存储的指令以在外部输入/输出设备(例如耦接到高速接口708的显示器716)上显示GUI的图形信息。在其他实现方式中,可酌情与多个存储器或多种类型的存储器一起使用多个处理器和/或多个总线。另外,可以连接多个计算设备,其中每个设备提供所需操作的一些部分(例如,作为服务器组、刀片服务器的群组或多处理器系统)。
存储器704在计算设备700内存储信息。在一些实现方式中,存储器704是一个或多个易失性存储器单元。在一些实现方式中,存储器704是一个或多个非易失性存储器单元。存储器704还可以是其他形式的计算机可读介质,例如磁盘或光盘。
存储设备706能够为计算设备700提供大容量存储。在一些实现方式中,存储设备706可以是或可以包含计算机可读介质,例如软盘设备、硬盘设备、光盘设备或磁带设备、快闪存储器或其他类似的固态存储器设备或设备阵列,包括在存储区域网络或其他配置中的设备。计算机程序产品还可以包含指令,所述指令在被执行时执行诸如上述方法的一个或多个方法。计算机程序产品可以有形地实现在计算机可读或机器可读介质(例如存储器704、存储设备706或处理器702上的存储器)中。
高速接口708管理用于计算设备700的带宽密集的操作,而低速接口712管理较低的带宽密集的操作。这样的功能分配仅是示例性的。在一些实现方式中,高速接口708耦接到存储器704、显示器716(例如通过图形处理器或加速器)并且连接到高速扩展端口710,高速扩展端口450可接受各种扩展卡(未示出)。在实现方式中,低速接口12耦接到存储设备706和低速扩展端口714。可包括各种通信端口(例如,USB、蓝牙、以太网、无线以太网)的低速扩展端口714可以耦接到一个或多个输入/输出设备,例如键盘、指向设备、扫描仪或(例如通过网络适配器)联网设备,例如交换机或路由器。
如图中所示,计算设备700可以以许多不同形式来实现。例如,其可以是实现为标准服务器720或多次实现为这样的服务器的群组。此外,其可以实现在个人计算机(例如,膝上型计算机722)中。其也可以被实现为机架服务器系统724的一部分。替代地,来自计算设备700的部件可以与移动设备(例如移动计算设备750)中的其他部件(未示出)组合。每个这样的设备可以包含一个或多个计算设备700和移动计算设备750,并且整个系统可以由彼此通信的多个计算设备组成。
移动计算设备750包括处理器752、存储器764、输入/输出设备(例如显示器754)、通信接口766和收发器768等。移动计算设备750还可以设置有存储设备,例如微硬盘(microdrive)或其他设备,以提供附加存储。处理器752、存储器764、显示器754、通信接口766和收发器768中的每一个均利用各种总线互连,并且这些部件中的一些可安装在公共的主板上或者酌情以其他方式安装。
处理器752可以在移动计算设备750内执行指令,包括在存储器764中存储的指令。处理器752可以被实现为包括单独的和多个的模拟和数字处理器的芯片的芯片组。处理器752可以例如提供用于移动计算设备750的其他部件的协调,例如控制用户接口、由移动计算设备750运行的应用和通过移动计算设备750的无线通信。
处理器752可以通过控制接口758和耦接到显示器754的显示接口756与用户通信。显示器754可以例如是TFT(薄膜晶体管液晶显示器)显示器或OLED(有机发光二极管)显示器或其他适当的显示器技术。显示接口756可以包括用于驱动显示器754以向用户呈现图形和其他信息的适当电路。控制接口758可以接收来自用户的命令并且对命令进行转换以提交给处理器752。此外,外部接口762可以提供与处理器752的通信,以便使得能够进行移动计算设备750与其他设备的近范围通信。外部接口762可以例如在一些实现方式中提供有线通信,或者在其他实现方式中提供无线通信,并且还可以使用多个接口。
存储器764在移动计算设备750内存储信息。存储器764可以被实现为一个或多个计算机可读介质、一个或多个易失性存储器单元或一个或多个非易失性存储器单元中的一个或多个。还可以提供扩展存储器774并将其通过扩展接口772连接到移动计算设备750,扩展接口772可以包括例如SIMM(单列直插存储器模块)卡接口。扩展存储器774可以为移动计算设备750提供额外存储空间,或者可以存储用于移动计算设备750的应用或其他信息。具体地,扩展存储器774可以包括执行或补充上述过程的指令,并且还可以包括安全信息。这样,例如,扩展存储器774可以被提供为移动计算设备750的安全模块,并且可以被编程有允许对移动计算设备750进行安全使用的指令。此外,可以经由SIMM卡提供安全应用连同附加信息,例如,以不可破解的方式将识别信息置于SIMM卡上。
如以下所讨论的,存储器可以包括例如快闪存储器和/或NVRAM存储器(非易失性随机存取存储器)。计算机程序产品包含指令,所述指令在被执行时执行诸如上述方法的一个或多个方法。计算机程序产品可以是计算机可读或机器可读介质,例如存储器704、扩展存储器774或处理器702上的存储器。在一些实现方式中,可以在传播的信号中接收计算机程序产品,例如通过收发器768或外部接口762。
移动计算设备750可以通过通信接口766无线通信,通信接口766在需要的情况下可以包括数字信号处理电路。通信接口766可以提供在各种模式或协议(例如,是GSM语音呼叫(全球移动通讯系统)、SMS(短消息服务)、EMS(增强型消息业务)或MMS消息(多媒体消息业务)、CDMA(码分多址)、TDMA(时分多址)、PDC(个人数字蜂窝)、WCDMA(宽带码分多址)、CDMA2000、或GPRS(通用分组无线业务)等)下的通信。这样的通信可以例如通过使用射频的收发器768进行。此外,可以进行短程通信,例如使用蓝牙、WiFi或其他收发器(未示出)。此外,GPS(全球定位系统)接收器模块770可以向移动计算设备750提供附加的导航和位置相关的无线数据,其可以由移动计算设备750上运行的应用酌情使用。
移动计算设备750还可以使用音频编解码器760进行可听式通信,音频编解码器760可以从用户接收语音信息并将其转换成可使用的数字信息。音频编解码器760可以同样为用户生成可听的声音,例如通过(例如,移动计算设备750中的听筒(handset))扬声器。这样的声音可以包括来自语音电话呼叫的声音,可以包括记录的声音(例如,语音消息,音乐文件等),并且可以包括由在移动计算设备750上进行操作的应用生成的声音。
如图中所示,移动计算设备750可以以许多不同形式实现。例如,其可以被实现为蜂窝电话770。其还可以被实现为智能电话772、个人数字助理或其他类似移动设备的一部分。
这里描述的系统和技术的各种实现方式可以在数字电子电路、集成电路、特别设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合中实现。这些不同的实现方式可以包括在一个或多个计算机程序中实现,计算机程序可以在可编程系统上执行和/或解释,可编程系统包括至少一个可编程处理器,其可以是专用或通用目的,可编程处理器被耦接以从存储系统、至少一个输入设备以及至少一个输出设备接收数据和指令和向它们发送数据和指令。
这些计算机程序(也称为程序、软件、软件应用、应用、部件或者代码)包括用于可编程处理器的机器指令,并且可以以高级程序化和/或面向对象的程序语言来实现,和/或以汇编/机器语言来实现。如本文中所使用地,术语“机器可读介质”和“计算机可读介质”指任何计算机程序产品、装置和/或设备(例如磁盘、光盘、存储器、可编程逻辑器件(PLD)),其用于为可编程处理器提供机器指令和/或数据,包括将机器指令作为机器可读信号接收的机器可读介质。术语“机器可读信号”指用于为可编程处理器提供机器指令和/或数据的任何信号。
为了提供与用户的交互,本文描述的系统和技术可以在具有用于向用户显示信息的显示设备(例如,CRT(阴极射线管)或LCD(液晶显示)监视器)及键盘和指向设备(例如,鼠标或轨迹球)的计算机上实现,其中用户可以通过键盘和指向设备向计算机提供输入。也可以使用其他种类的装置来提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感觉反馈,例如视觉反馈、听觉反馈或触觉反馈;并且可以以任何形式接收来自用户的输入,包括声学、语音或触觉输入。
本文描述的系统和技术可以在计算系统中实现,该计算系统包括后端组件(例如,作为数据服务器),或包括中间件组件(例如,应用服务器),或包括前端组件(例如,具有图形用户界面或网页浏览器的客户端计算机,用户可通过其与本文描述的系统和技术的实施方式进行交互),或者这样的后端、中间件或前端组件的任意组合。可以通过数字数据通信的任意形式或介质(例如,通信网络)将系统的组件互连。通信网络的示例包括局域网(LAN)、广域网(WAN)和互联网。
计算系统可以包括客户端和服务器。一般来说,客户端和服务器彼此远离,并且通常通过通信网络交互。通过运行在各个计算机并且彼此具有客户端-服务器关系的计算机程序而形成的客户端和服务器的关系。
在其中本文的系统、方法、设备和其他技术收集关于用户的个人信息(例如,背景信息)或可能会利用个人信息的情况下,可以给用户提供控制程序或特征是否收集用户信息(例如,关于用户的社交网络、社交动作或行为、职业、用户的偏好或用户的当前位置的信息)或控制是否和/或如何从内容分发系统接收可能与用户较相关的内容的机会。此外,可以在存储或使用某些数据之前以一种或多种方式处理所述数据,以便去除个人可识别信息。例如,可以处理用户的身份使得不能确定该用户的个人可识别信息,或者可以将获得位置信息的用户的地理位置一般化(例如,到市、邮政编码或州级),使得不能确定用户的具体位置。因此,用户可以控制如何收集关于用户的信息和如何由内容分发系统使用信息。
尽管上文详细描述了各种实施方式,但其他修改也是可能的。此外,附图中描绘的逻辑流程不要求所示出的特定顺序或者相继顺序来实现期望的结果。此外,可以提供其他步骤,或可以从描述的流程除去步骤,并且可以将其他部件添加到描述的系统或从描述的系统除去其他部件。因此,其他实现方式落入下述权利要求的范围内。例如,尽管已经关于例如视频剪辑的第三方内容描述了各个方面和实现方式,但是可以用由第三方提供的任何类型的内容(包括文本、图像、视频文件、声音剪辑、广告、视频剪辑等或其任何组合)来应用这些方面和实现方式。

Claims (20)

1.一种系统,包括:
训练数据库,所述训练数据库存储训练数据,所述训练数据包括关于多个用户的属性信息和对所述多个用户在内容呈现之后的在线行为进行量化的对应代理度量,所述属性信息包括关于所述多个用户中的每一个的人口统计信息,所述人口统计信息不包括直接指示每个用户将会如何对内容进行响应的信息;
内容数据库,所述内容数据库存储从各种第三方内容提供者接收到的第三方内容;
模型生成器,所述模型生成器访问所述训练数据库中的训练数据并且基于包括关于多个用户的属性信息和对应代理度量的所述训练数据训练针对第三方内容分发的模型;以及
内容分发服务器,所述内容分发服务器接收针对要在客户端设备处与内容的另一部分一起呈现的第三方内容的请求,其中所述内容分发服务器使用所述模型,响应于所述请求以选择要被分发到所述客户端设备的第三方内容并且将识别所选择的第三方内容的数据传输到所述客户端设备,
其中,所述模型:
从所述请求获得一组属性,其中,所述一组属性与关于与所述请求关联的用户的属性信息相关,所述属性信息包括关于所述用户的人口统计信息,所述人口统计信息不包括直接指示所述用户将会如何对内容进行响应的信息,
接收关于存储在所述内容数据库中的给定第三方内容的信息,
基于与关于与所述请求关联的用户的属性信息相关的所述一组属性和关于第三方内容的信息,针对所述给定第三方内容预测代理度量,其中,所预测的代理度量提供关于将由所述给定第三方内容的呈现而导致的主题保持或主题意识中的至少一个的信息;以及
使用所预测的代理度量并且针对所述内容分发服务器,基于所预测的代理度量达到阈值来识别给定第三方内容用于分发。
2.根据权利要求1所述的系统,其中,关于所述内容数据库中的所述给定第三方内容的信息包括所述给定第三方内容的类别、所述给定第三方内容的持续时间和所述给定第三方内容的特征中的至少一个。
3.根据权利要求1或2所述的系统,其中,所述训练数据库还接收与向所述客户端设备显示特定的第三方内容关联的代理度量,并且其中,所述模型生成器还使用接收到的与向所述客户端设备显示所述特定的第三方内容关联的代理度量来重新训练所述模型。
4.根据权利要求1或2所述的系统,其中,所述模型还对属性信息的某些类别加权并且基于加权的属性信息预测代理度量。
5.根据权利要求1或2所述的系统,其中,针对第三方内容的所述请求不包含已知属性信息,其中,所述模型不管属性信息地识别训练数据。
6.根据权利要求1或2所述的系统,其中,所述代理度量包括在视频内容上的点击、与视频内容关联的观看时间、与视频内容关联的跳过时间、与视频内容关联的可视性度量和与视频内容关联的可听性中的至少一个。
7.根据权利要求1或2所述的系统,其中,从各种第三方内容提供者接收到的第三方内容中的每一个第三方内容包括对于主题保持或主题意识的偏好。
8.根据权利要求7所述的系统,其中,所述模型基于所述偏好识别所述给定第三方内容。
9.根据权利要求1或2所述的系统,其中,所述模型生成器识别并存储特定代理度量和主题保持之间的相关性。
10.根据权利要求1或2所述的系统,其中,所述模型生成器识别并存储特定代理度量和主题意识之间的相关性。
11.根据权利要求1或2所述的系统,其中,所述模型使用逻辑回归机器学习和线性回归机器学习中的至少一个来预测所述代理度量。
12.一种计算机实现的方法,包括:
在训练数据库中存储训练数据,所述训练数据包括关于多个用户的属性信息和对在内容呈现之后的在线行为进行量化的对应代理度量,所述属性信息包括关于所述多个用户中的每一个的人口统计信息,所述人口统计信息不包括直接指示每个用户将会如何对内容进行响应的信息;
在内容数据库中存储从各种第三方内容提供者接收到的第三方内容;
通过模型生成器访问所述训练数据库中的训练数据并且基于包括关于多个用户的属性信息和对应代理度量的所述训练数据库训练针对第三方内容分发的模型;
通过内容分发服务器接收针对要在客户端设备处与内容的另一部分一起呈现的第三方内容的请求;
通过所述内容分发服务器并且使用所述模型,响应于所述请求选择要分发到所述客户端设备的第三方内容,其中,所述模型:
从所述请求获得一组属性,其中,所述一组属性与关于与所述请求关联的用户的属性信息相关,所述属性信息包括关于所述用户的人口统计信息,所述人口统计信息不包括直接指示所述用户将会如何对内容进行响应的信息,
接收关于存储在所述内容数据库中的给定第三方内容的信息,
基于与关于与所述请求关联的用户的属性信息相关的所述一组属性和关于第三方内容的信息,针对所述给定第三方内容预测代理度量,其中,所预测的代理度量提供关于将由所述给定第三方内容的呈现而导致的主题保持或主题意识中的至少一个的信息;以及
使用所预测的代理度量并且针对所述内容分发服务器,基于所预测的代理度量达到阈值来识别给定第三方内容用于分发;以及
通过所述内容分发服务器,向所述客户端设备传输识别所选择的第三方内容的数据。
13.根据权利要求12所述的计算机实现的方法,其中,关于所述内容数据库中的所述给定第三方内容的信息包括所述给定第三方内容的类别、所述给定第三方内容的持续时间和所述给定第三方内容的特征中的至少一个。
14.根据权利要求12或13所述的计算机实现的方法,还包括:
通过所述训练数据库接收与向所述客户端设备显示特定的第三方内容关联的代理度量;以及
使用接收到的与向所述客户端设备显示所述特定的第三方内容关联的代理度量来重新训练所述模型。
15.根据权利要求12或13所述的计算机实现的方法,其中,所述模型还对属性信息的某些类别加权并且基于加权的属性信息预测代理度量。
16.根据权利要求12或13所述的计算机实现的方法,其中,所述代理度量包括在视频内容上的点击、与视频内容关联的观看时间、与视频内容关联的跳过时间、与视频内容关联的可视性度量和与视频内容关联的可听性中的至少一个。
17.根据权利要求12或13所述的计算机实现的方法,其中,从各种第三方内容提供者接收到的第三方内容中的每一个第三方内容包括对于主题保持或主题意识的偏好。
18.根据权利要求12或13所述的计算机实现的方法,还包括:
识别并存储特定代理度量和主题保持之间的相关性。
19.根据权利要求12或13所述的计算机实现的方法,还包括:
识别并存储特定代理度量和主题意识之间的相关性。
20.一个或多个计算机可读介质,具有存储在其上的指令,所述指令在由一个或多个处理器执行时导致操作的执行,所述操作包括:
在训练数据库中存储训练数据,所述训练数据包括关于多个用户的属性信息和对在内容呈现之后的在线行为进行量化的对应代理度量,所述属性信息包括关于所述多个用户中的每一个的人口统计信息,所述人口统计信息不包括直接指示每个用户将会如何对内容进行响应的信息;
在内容数据库中存储从各种第三方内容提供者接收到的第三方内容;
访问所述训练数据库中的训练数据并且基于包括关于多个用户的属性信息和对应代理度量的所述训练数据训练针对第三方内容分发的模型;
接收针对要在客户端设备处与内容的另一部分一起呈现的第三方内容的请求;
使用所述模型,响应于所述请求选择要分发到所述客户端设备的第三方内容,其中,所述模型:
从所述请求获得一组属性,其中,所述一组属性与关于与所述请求关联的用户的属性信息相关,所述属性信息包括关于所述用户的人口统计信息,所述人口统计信息不包括直接指示所述用户将会如何对内容进行响应的信息,
接收关于存储在所述内容数据库中的给定第三方内容的信息,
基于与关于与所述请求关联的用户的属性信息相关的所述一组属性和关于所述第三方内容的信息,针对所述给定第三方内容预测代理度量,其中,所预测的代理度量提供关于将由所述给定第三方内容的呈现而导致的主题保持或主题意识中的至少一个的信息;以及
使用所预测的代理度量并且针对所述内容分发服务器,基于所预测的代理度量达到阈值来识别给定第三方内容用于分发;以及向所述客户端设备传输识别所选择的第三方内容的数据。
CN201680084301.4A 2016-06-15 2016-12-16 使用模型优化内容分发 Active CN109074359B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310538434.6A CN116521907A (zh) 2016-06-15 2016-12-16 使用模型优化内容分发

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/183,335 2016-06-15
US15/183,335 US11531925B2 (en) 2016-06-15 2016-06-15 Optimizing content distribution using a model
PCT/US2016/067189 WO2017218041A1 (en) 2016-06-15 2016-12-16 Optimizing content distribution using a model

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202310538434.6A Division CN116521907A (zh) 2016-06-15 2016-12-16 使用模型优化内容分发

Publications (2)

Publication Number Publication Date
CN109074359A CN109074359A (zh) 2018-12-21
CN109074359B true CN109074359B (zh) 2023-05-09

Family

ID=58228529

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201680084301.4A Active CN109074359B (zh) 2016-06-15 2016-12-16 使用模型优化内容分发
CN202310538434.6A Pending CN116521907A (zh) 2016-06-15 2016-12-16 使用模型优化内容分发

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202310538434.6A Pending CN116521907A (zh) 2016-06-15 2016-12-16 使用模型优化内容分发

Country Status (6)

Country Link
US (2) US11531925B2 (zh)
EP (1) EP3446235A1 (zh)
JP (1) JP6767499B2 (zh)
KR (1) KR102141674B1 (zh)
CN (2) CN109074359B (zh)
WO (1) WO2017218041A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11182804B2 (en) * 2016-11-17 2021-11-23 Adobe Inc. Segment valuation in a digital medium environment
US11451875B2 (en) 2018-06-04 2022-09-20 Samsung Electronics Co., Ltd. Machine learning-based approach to demographic attribute inference using time-sensitive features
WO2020118432A1 (en) * 2018-12-13 2020-06-18 Element Ai Inc. Data set access for updating machine learning models
US20200265733A1 (en) * 2019-02-14 2020-08-20 Amazon Technologies, Inc. Live adaptive training in a production system
US10951695B2 (en) * 2019-02-14 2021-03-16 Aon Global Operations Se Singapore Branch System and methods for identification of peer entities
EP3743873B1 (en) * 2019-04-01 2021-06-30 Google LLC Modeling distribution of digital components over a network
US11106914B2 (en) * 2019-12-02 2021-08-31 At&T Intellectual Property I, L.P. Method and apparatus for delivering content to augmented reality devices

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7007166B1 (en) * 1994-12-28 2006-02-28 Wistaria Trading, Inc. Method and system for digital watermarking
CN101517603A (zh) * 2006-04-27 2009-08-26 盖亚软件知识产权有限公司 内容分发系统及其方法
CN102223420A (zh) * 2011-07-07 2011-10-19 河南科技大学 一种面向多媒体社交网络的数字内容分发方法
CN105431834A (zh) * 2013-07-31 2016-03-23 谷歌公司 基于用户历史创建内容共享平台的个性化和连续播放列表
CN105590240A (zh) * 2015-12-30 2016-05-18 合一网络技术(北京)有限公司 一种品牌广告效果优化的离散计算方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060247956A1 (en) 2003-06-24 2006-11-02 R-Squared Analytics, Llc Risk environment modeling for predicting decisions
KR100785963B1 (ko) * 2005-06-30 2007-12-14 주식회사 대우일렉트로닉스 디지털 방송 수신기에서 사용자 시청 패턴에 따른오디오/비디오 처리장치 및 방법
US20110004504A1 (en) 2009-07-01 2011-01-06 Edward Ives Systems and methods for scoring a plurality of web pages according to brand reputation
US20110040616A1 (en) 2009-08-14 2011-02-17 Yahoo! Inc. Sponsored search bid adjustment based on predicted conversion rates
US20110173063A1 (en) 2010-01-11 2011-07-14 Yahoo! Inc. Advertiser value-based bid management in online advertising
WO2012048244A2 (en) 2010-10-07 2012-04-12 Rocket Fuel, Inc. System and method for real-time advertising campaign adaptation
IL221685A0 (en) * 2012-08-29 2012-12-31 Google Inc Predicting content performance with interest data
US20140095325A1 (en) 2012-09-28 2014-04-03 Woo Jin Kim Optimizing monetization with brand impact scoring
US9462412B1 (en) * 2012-10-10 2016-10-04 Google Inc. Providing content based on previously determined device locations
US20150025948A1 (en) 2013-07-19 2015-01-22 Yume, Inc. Brand Aware Advertising Systems
KR101570870B1 (ko) 2014-06-03 2015-11-23 (주)스마트웨어 안구 인식 기반의 동영상 시청확인에 의한 동영상 난이도 추정 시스템
US20170068992A1 (en) * 2015-09-04 2017-03-09 Yahoo! Inc. Multi-source content blending

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7007166B1 (en) * 1994-12-28 2006-02-28 Wistaria Trading, Inc. Method and system for digital watermarking
CN101517603A (zh) * 2006-04-27 2009-08-26 盖亚软件知识产权有限公司 内容分发系统及其方法
CN102223420A (zh) * 2011-07-07 2011-10-19 河南科技大学 一种面向多媒体社交网络的数字内容分发方法
CN105431834A (zh) * 2013-07-31 2016-03-23 谷歌公司 基于用户历史创建内容共享平台的个性化和连续播放列表
CN105590240A (zh) * 2015-12-30 2016-05-18 合一网络技术(北京)有限公司 一种品牌广告效果优化的离散计算方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
After Addressing initial video viewability,these are the metrics that matter;Jeremy Osterminller;《archive.org》;20150731;全文 *
Beyond clicks:Dwell time for personalization;Yi et al.;《RecSys》;20141010;全文 *
Viewability prediction for online display Ads;Wang et al.;《CICM"15》;20151023;全文 *

Also Published As

Publication number Publication date
KR20180117163A (ko) 2018-10-26
CN109074359A (zh) 2018-12-21
WO2017218041A1 (en) 2017-12-21
US20230089961A1 (en) 2023-03-23
EP3446235A1 (en) 2019-02-27
CN116521907A (zh) 2023-08-01
KR102141674B1 (ko) 2020-08-05
JP2019523916A (ja) 2019-08-29
JP6767499B2 (ja) 2020-10-14
US20170364822A1 (en) 2017-12-21
US11531925B2 (en) 2022-12-20

Similar Documents

Publication Publication Date Title
CN109074359B (zh) 使用模型优化内容分发
US10872109B2 (en) Generating customized content
US20210334827A1 (en) Method and system for influencing auction based advertising opportunities based on user characteristics
AU2018200833B2 (en) Providing content to a user across multiple devices
US11270333B1 (en) Click-through prediction for targeted content
RU2580516C2 (ru) Способ формирования персонализированной модели ранжирования, способ формирования модели ранжирования, электронное устройство и сервер
JP6334696B2 (ja) ハッシュタグおよびコンテンツ提示
KR101947667B1 (ko) 비디오 검색용 시청 시간 클러스터링
US11372514B1 (en) Identifying and rendering content relevant to a user's current mental state and context
US9898758B2 (en) Providing a modified content item to a user
US10967258B1 (en) Using game data for providing content items
US11798009B1 (en) Providing online content
US11544342B1 (en) Selecting content for co-located devices
US20140114761A1 (en) Providing previously viewed content with search results
US8849804B1 (en) Distributing interest categories within a hierarchical classification
US20170154355A1 (en) Score boards based on social groups
US10089635B1 (en) Presenting video view data
US8666810B1 (en) System and method for online unique users and frequency estimation for advertisements on a video sharing website based on auction history results
US10346519B1 (en) Selecting content based on entities

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant