CN107077455A - 釆用基于事件的流量评分确定流量质量 - Google Patents

釆用基于事件的流量评分确定流量质量 Download PDF

Info

Publication number
CN107077455A
CN107077455A CN201480079297.3A CN201480079297A CN107077455A CN 107077455 A CN107077455 A CN 107077455A CN 201480079297 A CN201480079297 A CN 201480079297A CN 107077455 A CN107077455 A CN 107077455A
Authority
CN
China
Prior art keywords
event
active user
entity
user
past
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201480079297.3A
Other languages
English (en)
Inventor
林湛刚
彭飞
裘宪恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
R2 Solutions Ltd
Original Assignee
Excalibur IP LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Excalibur IP LLC filed Critical Excalibur IP LLC
Publication of CN107077455A publication Critical patent/CN107077455A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements
    • G06Q30/0246Traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

提供了用于确定针对与用户和在线内容的交互相关的事件(例如,通过网页、手机应用等等)的事件层级的流量质量的方法、系统、以及程序。与当前用户事件和过去用户事件的数据可以被接收,其中这种数据可以包括关于与相应用户事件中的每个相关联的实体的集合的信息。基于与当前用户事件和过去用户事件相关联的对应的实体的集合的信息,生成针对当前用户事件的特征值集合。至少部分地基于这种特征值集合(例如基于特征值集合的元件的加权组合),可以确定针对当前用户事件的流量质量分数。针对实体的实体层的流量质量分数可以基于涉及那个实体的用户事件的事件层流量质量分数而确定。

Description

釆用基于事件的流量评分确定流量质量
技术背景
1.技术领域
本公开涉及确定在线内容的流量质量。
2.技术背景讨论
在线广告在互联网中扮演重要角色。在市场中总体上有三种角色:发布者、广告商、以及执行者。诸如Google、Microsoft以及Yahoo的执行者,提供了针对发布者和广告商的平台或交易所。然而,在商业系统中存在欺诈性的角色。发布者具有使流量膨胀来收取广告商更多的费用的强烈动机。一些广告商也可能实施欺诈以耗尽竞争者的资金。为了保护合法的发布者和广告商,执行者需要承担对抗欺诈性流量的责任,否则商业系统就会被破坏并且合法的角色将离开。许多当前主要的执行者具有反欺诈系统,此反欺诈系统釆用基于规则的或机器学习的过滤器。这些过滤器通常用二进制标志来标记每次曝光和点击,无论曝光和点击是有效的还是无效的。然而,在有效的和无效的之间很难简单地划出界限。事实上,在灰色地带中存在既未好到有效、也未坏到无效的可疑流量。
此外,与广告换算(即在广告商网站上进行广告点击的用户活动等等)相关的数据可能是稀少的,并且有时广告商可能不希望将他们的换算数据发送到广告网络,这使得换算数据的收集难以进行。更进一步地,即使广告商愿意将他们的换算数据发送到广告网络,广告换算的追踪也可能被错误地配置,并因此所收集的换算数据本身可能没有好的质量或是不可靠的。现存的流量质量评分可能仅仅得到流量质量的粗粒度的分数(例如,以标记为有效的或无效的二进制决定的方式)来减缓稀少的广告换算数据的稀少问题,并且这可以使得它不同于针对在可能仅仅具有较小流量体积的广告网络中的较小实体来估计流量质量。
总结
本公开涉及用于确定与在线内容(诸如,网页、网站、安装在无线/移动设备上基于互联网的应用等等,和/或被提供在其上或有关网页、网站的基于互联网的应用的广告,等等)相关的事件层流量质量的方法、系统、以及编程。更具体地,本公开涉及确定针对与用户和在线内容交互相关的事件的事件层级的流量质量的方法、系统、以及编程,用户交互例如是,对与在线内容(诸如网页)相关联地提供的广告(“广告”)的用户曝光(诸如显示)、对在线广告的用户点击或选定,在线广告的用户“换算”(即由用户执行与完成的针对被广告在点击使用或选中的产品或服务的在线财务交易)等等。
本公开的一个方面,公开了在具有至少一个处理器、存储器、与连接到网络的通信平台的机器上所实现的、确定与在线内容相关的流量质量的方法。此方法中,与表明用户和在线内容的交互的当前用户事件相关的数据被接收。与当前用户事件相关的数据可以包括关于与当前用户事件相关联的实体的集合(例如(一个或多个)用户、(一个或多个)发布者、(一个或多个)广告商、(一个或多个)广告创作者等等)的信息。基于关于与当前用户事件相关联的实体的集合的信息,针对当前用户事件的特征值集合可以被生成,其中特征值集合可以实质地测量在线广告系统中的各种实体的用户流量或活动的多样性。更进一步地,针对当前用户事件的事件层流量质量分数可以至少部分地基于所生成的特征值集合,例如基于特征值集合的元素的加权组合。
在本公开的另一个方面,公开了来确定与在线内容相关的流量质量的系统。系统包括通信平台、特征集合引擎、以及流量质量引擎。通信平台可以被配置以接收与表明用户和在线内容交互的当前用户事件相关的数据。与当前用户事件相关的这种数据可以包括关于与当前用户事件相关联的实体的集合信息。特征集合引擎可以被配置以基于关于与当前用户事件相关联的实体的集合的信息来确定针对当前用户事件的特征值集合。流量质量引擎可以被配置以至少部分地基于特征值集合来确定针对当前用户事件的流量质量分数。
在一些实施例中,流量质量引擎包括被配置以计算特征值的元素的加权组合值的特征组合单元,以及被配置以基于来自特征组合单元的加权组合值来生成针对当前用户事件的流量质量分数的流量分数生成器。
其它概念涉及针对实现对于在线内容的流量质量(事件层)的确定的软件。对应此概念的软件产品包括至少一个机器可读的非暂态的介质以及由介质携带的信息。由介质携带的信息(例如与用户、在线内容的发布者、在线广告商等等、请求、或社会组织等等相关的信息)可以是关于与请求相关联的参数或者可操作的参数的可执行的程序代码数据。
在一个示例中,机器可读的与非暂态的介质具有记录在其中的信息来确定流量质量,其中当信息被机器阅读时,引起机器接收与表明用户与线上内容交互(曝光、点击等等)的当前用户事件相关的数据。与当前用户事件相关的数据包括关于与当前用户事件相关联的实体(诸如(一个或多个)用户、(一个或多个)发布者、(一个或多个)广告商、(一个或多个)广告创造者等等)的集合的信息。基于关于与当前用户事件相关联的实体的集合的信息,针对当前用户事件的特征值集合能够被生成。更进一步地,针对当前用户事件的事件层流量质量分数可以被至少部分地基于所生成的特征值集合而确定,例如基于特征值集合的元素的加权组合。
额外的优点和新颖特征将会在下述说明书的部分中示出,其部分基于下列实验与附图,对于本领域技术人员来说是显而易见的,或者是可以通过示例的成果和操作而学习的。本技术的优点可以通过在下列详细讨论的示例中被列出的方法论、仪器和组合的各种方面的实践或使用而被实现和获得。
附图简要说明
本文所描述的方法、系统与/或编程根据示例的实施例被进一步描述。这些示例的实施例参照附图而被详细描述。这些实施例是非限制性的示例的实施例,其中贯穿附图的一些视图相似的标号代表类似的结构,其中:
图1(a)-图1(c)示出了系统的示例,依照本公开的各种实施例的流量质量监管和评分在此系统中被实现;
图2示出了根据本公开的实施例的、示例的流量质量引擎的高层次描绘;
图3示出了根据本公开的实施例的、在流量质量引擎处被操作的示例的过程的流程图;
图4(a)示出了根据本公开的第一个实施例的、示例的特征集合引擎的高层次描绘;
图4(b)示出了根据对应图4(a)的上述实施例的、在特征集合引擎处被操作的示例的过程的流程图;
图5(a)示出了根据本公开的第二个实施的、示例的特征集合引擎的高层次描绘;
图5(b)示出了根据对应于图5(a)的上述实施例的、在特征集合引擎处操作的示例的过程的流程图;
图6(a)示出了根据本公开的第一个实施例的、示例的流量质量单元的高层次描绘;
图6(b)示出了根据对应于图6(a)的上述实施例的、在流量质量单元处操作的示例的过程的流程图;
图7(a)示出了根据本公开的另一个实施例的、在流量质量单元处操作的示例的过程的流程图,;
图7(b)示出了根据对应图7(a)的上述实施例的、在流量质量单元处操作的示例的过程的流程图;
图8(a)示出了根据本公开的实施例的、示例的概率计算器的高层次描绘(在图(7)中示出);
图8(b)示出了根据对应于图8(a)的上述实施例的、在概率计算器处操作的示例的过程的流程图;
图9(a)示出了根据本公开的实施例的、示例的实体流量质量单元的高层次描绘;
图9(b)示出了根据对应图9(a)的上述实施例的、在实体流量质量单元处操作的示例的过程的流程图;
图10(a)示出了根据本公开的实施例的、示例的警报通知单元的高层次描绘;
图10(b)示出了根据对应于图10(a)的上述实施例的、在警报通知单元处操作的示例的过程的流程图;
图11示出了一般的移动设备架构,在此架构上本教导可以被实现;以及
图12示出了一般的计算机架构,在此架构上本教导可以被实现。
详细描述
下列详细描述中,大量的具体细节通过示例的方式被列出从而提供对相关教导的透彻的理解。然而,应当对本领域技术人员显而易见的是,本教导可以在无需这些细节的情况下被实践。在其它示例中,众所周知的方法、步骤、元件、和/或环路在相对高的层次被无细节地描述,以避免对本教导不必要的模糊。
本教导涉及确定与用户和在线内容(例如在网页上、在移动独立应用中等等)的交互(例如广告点击、广告曝光、和/或广告换算)相关的事件的事件层流量质量。与当前用户事件和过去用户事件相关的数据可以被接收,其中这种数据可以包括关于与相应的用户事件相关联的实体的集合(诸如(一个或多个)发布者、(一个或多个)广告商、(一个或多个)用户、(一个或多个)广告创造者等等)的信息。针对与当前用户事件相关的流量敛散性特征的组的特征值集合可以被生成来估计跨(涉及在线广告系统中的)各种实体的流量质量。特征值集合能够基于与当前用户事件和/或过去用户事件相关联的实体的相应的集合的信息而被生成。针对当前用户事件的流量质量分数可以至少部分地基于这种特征值集合而被确定,例如基于特征值集合的元素的加权组合。
由此,用户事件在其中被分配(有效的或无效的)二进制标识的传统的在线广告反欺诈技术相反,本公开中介绍的事件层流量质量评分技术提供了表明用户事件的有效(或无效)的各种等级或层次的真实数据的流量质量分数。更进一步地,事件层级的流量质量分数可以用作确定或计算广告网络的一个或多个(相较事件层)更高粒度的流量质量分数的基础。具体地,应用针对包括特定的发布者、广告商、用户、或者其它参与者的可以被确定的多个用户事件的(真实数据的)流量质量分数,例如通过计算事件层的流量质量分数的平均(或其它统计的计量),上述发布者、广告商、用户、或者其它参与者的流量质量分数可以被确定。
图1(a)-图1(c)是不同系统配置的高层次描述,根据本公开的一个或多个实施例,其中对于与在线广告和基于特征集合的事件层流量质量分数相关的用户事件的特征集合可以被确定。在图1(a)中,示例的系统100包括用户110、网络120、一个或多个发布者门户或发布者130、一个或多个广告商140、事件日志/数据库150、数据源160(包括数据源1 160-a、数据源2 160-b、......、数据源n 160-c)、流量质量引擎170、事件信息处理模块175以及系统操作器/管理器180。
网络120可以是单独的网络或不同网络的组合。例如,网络可以是局域网(LAN)、广域网(WAN)、公共网络、个人网络、专有网络、公共交换电话网(PSTN)、互联网、无线网络、蜂窝网络、虚拟网络、或任何上述的组合。网络也可以包括各种网络接入点,例如,有线或无线接入点(诸如基站或互联网交换点120-a、...、120-b),数据源可以通过接入点连接到网络从而通过网络传输信息。在一个实施例中,网络120可以是在线广告网络或广告网络,其将广告商140连接到发布者130或希望承办广告的网站/移动应用。广告网络的功能是聚集由发布者所供应的广告空间并且将其与广告商的需求进行匹配。广告网络可以是电视广告网络、印刷广告网络、在线(互联网)广告网络,或者移动广告网络。
用户110可以是不同类型的用户,例如通过台式机连接到网络(110-d)的用户、通过无线连接(例如,通过膝上型计算机(110-c)、掌上设备(110-a)或机动车辆的嵌入式设备(110-b))连接到网络的用户。在一个实施例中,(一个或多个)用户110可以被连接到网络并且能够通过在用户可穿戴设备(诸如眼镜、腕表等等)中实现的无线技术、相关操作系统以及接口,对(由发布者所提供的)在线内容进行访问和交互。诸如110-1的用户可以通过网络120发送针对在线内容的请求到发布者130,并且通过网络120来接收内容以及(由广告商140提供的)一个或多个广告。当在用户设备的用户接口(诸如显示器)被提供的时候,用户110-1可以点击或以其它方式选定(一个或多个)广告以浏览和/或购买被广告的(一个或多个)产品或(一个或多个)设备。在本公开的情境中,这种广告展示/曝光、广告点击、广告换算、以及其它用户和在线内容的交互可以被视作“事件”。
发布者130可以对应具有发布业务(诸如电视台、报纸发行者、网页拥有者、在线服务提供者或游戏服务器)的实体(无论是个人、公司、或组织)。例如,在与在线或者移动广告网络的连接中,发布者130可以是诸如美国专利商标局(USPTO.gov)的组织、诸如美国有线电视新闻网络(CNN.com)和雅虎(Yahoo.com)的内容提供者、或者诸如推特(Twitter)或者博客的内容补充式源。在一个实施例中,发布者130包括通过移动应用(诸如安装在智能手机、平板设备上等等)来发展、支持和/或提供在线内容的实体。在一个例子中,发送到用户110-1的内容可以基于由内容源160所提供或从内容源160取回的数据来由发布者130生成或格式化。内容源可以对应预内容被最初生成和/或储存在其上的实体。例如,小说最初被打印在杂志中,但之后被在线发表在由发布者控制的网站上。在示例网络的环境100中的内容源160包括多个内容源160-1、160-2、...、160-3。
广告商140总体上可以对应正在做或者打算做(或以其它方式介入)广告业务的实体(无论是个人、公司、或者组织)。以这种方式,广告商140可以作为提供(一个或多个)产品和/或(一个或多个)服务的实体,并且在由发布者提供的平台(诸如网站、移动应用等等)上它自身针对其自己的(一个或多个)产品和/或(一个或多个)服务承担发布广告的过程。例如,广告商140可以包括诸如通用汽车(General Motor)、百思买集团(Best Buy)、或迪士尼(Disney)的公司。然而在一些其它情况中,广告商140可以是针对由其它实体提供的(一个或多个)产品和/或(一个或多个)服务仅仅承担发布广告的过程的实体。
广告商140可以是被安排来提供在线广告到(一个或多个)发布者130的实体,这样这些广告与其它在线内容在用户设备处被呈现给用户110。广告商140可以提供流内容、静态内容、以及赞助内容。广告内容可以被放置在内容网页或应用(诸如移动应用)的任何地方,并且可以作为内容流和独立的广告这两者的部分被呈现,策略上地在内容流的周围或其中被放置。在一些实施例中,广告商140可以包括或可以被配置为交换引擎,上述转换引擎作为用来购买由发布者(诸如发布者130)提供的一个或多个广告机会的平台的角色来服务。广告交换引擎可以在与引擎相关联的多个广告商中进行内部招标,并且在接收和响应来自发布者的投标请求之后,提交合适的投标给发布者。
内容源160可以包括多个内容源160-a、160-b、...160-c。内容源可以对应对应于发布者(例如发布者130)的网页拥有者,实体,无论是个人、公司、或诸如USPTO.gov的组织、诸如CNN.com和Yahoo.com的内容提供者、或者诸如Twitter或博客的内容补充式源。内容源110可以是诸如在线新闻、发布的纸张、博客、在线画报、杂志、音频内容、图像内容、以及视频内容的在线内容的任何源。它可以是来自诸如Yahoo!金融、Yahoo!体育、CNN以及娱乐体育节目电视网(ESPN)的内容。它可以是多媒体内容或者文本或者包括网站内容、社会媒体内容(诸如Facebook、Twitter、Reddit等等或任何内容丰富的提供者)的内容的任何其它形式。它可以是来自诸如AP和Reuters之类的提供者的经许可的内容。它也可以是来自互联网上各种源的被抓取与索引的内容。内容源110提供大量的内容到发布者130和/或系统100的其它部分。。
流量质量引擎170可以被配置以(例如在本文实现的通信平台上)接收或取回与表明用户和在线内容和广告的交互(曝光,点击等等)相关的当前用户事件的数据,例如来自模块175以及与过去用户事件相关的数据(例如来自事件日志150),并且处理这些事件数据以生成特征值集合,上述特征值集合表明在跨在线广告系统100的各种实体的用户流量或活动中的多样性。更进一步地,至少部分地基于特征值集合,引擎170可以生成针对当前用户事件的事件层级的流量质量分数,其具有比诸如仅仅用有效或无效来确定事件更好的粒度。在本公开的情境中,每个“当前事件”或“过去事件”中的每个可以包括单独的事件或多个事件的组合(或聚合)。
事件信息处理模块175可以被配置以作为发布者130和广告商140的后台系统操作,来接收、处理以及储存关于与用户与包括在用户110的设备上的提供给用户110的广告在线内容的交互(例如曝光、广告点击、广告转换等等)相关的信息。在一些实施例中,用户110执行与所表示的在线内容(即“当前用户事件”)的交互(即广告点击),相关的发布者130和/或广告商140(提供内容和广告)可以通信当前用户事件的细节(包括但不局限于事件的类型、事件的时间、关于涉及当前事件的内容以及广告(例如是否与体育、新闻、旅行、零售购物等等相关)的环境信息、用户信息(诸如用户的IP地址、姓名、年龄、性别、位置、其它用户身份信息)、与此特定事件相关的(一个或多个)发布者130的身份信息、与此特定事件相关的(一个或多个)广告商140的身份信息、以及与此特定事件相关的其它实体/参与者(诸如广告创造者)的身份信息)。上述的事件相关的信息可以根据针对每个用户110、每个发布者130以及每个广告商140的每个事件的发生而被提供到模块175。在一些其它情况中,这种信息仅针对用户110、发布者130和/或广告商140的特定的集合由模块175处理和记录。在一些实施例中,模块175可以包括数据库(未在图中示出)以在特定的(一个或多个)分类和(一种或多种)格式储存与用户110、发布者130和广告商140以及系统100的其它实体相关的信息。更进一步地,模块175可以被配置用关于与系统100(诸如当发布者130、广告商140等等加入或离开系统100的时候)相关的实体的最新信息(周期性地或按要求的)来更新其数据库。
模块175可以将系统100的各种实体中的每个定义为具体“类型”的实体,例如用户110作为“用户”实体、发布者130作为“发布者”实体、广告商140作为“广告商”实体等等。模块175还可以将用户110、发布者130、广告商140等等分类到在它们相应的指定的类型中的(分层的或不分层的)多个子集。例如,模块175可以根据诸如他们的年龄、位置、性别、IP地址、等等来将用户分类中的用户110定义或标注为属于不同的子分类,并且相应地在其数据库中整理和储存信息。相似地,模块175可以基于诸如内容/广告的类别、他们的财务状况等等属于相应的不同的子分类,来定义或标注发布者130和广告商140(分别在发布者和广告商分类中)并且相应地整理和储存信息。如下面将被详述的,处理模块175提供当前用户事件数据和数据到引擎170用于确定特征集合以及流量质量分数。
在一些实施例中,可能是集中式的或分布式的事件日志/数据库150,储存与提供与过去用户事件(即时间上相对于当前用户事件发生的时间的之前发生的事件)相关的依照与在线内容和广告的用户交互(或作为其结果)所生成的数据。如以上讨论的当前用户事件数据,过去用户事件数据还可以包括,关于与相应之前用户事件中的每个以及事件相关的其它信息相关联的实体(诸如(一个或多个)用户、(一个或多个)发布者、(一个或多个)广告商、(一个或多个)广告创造者等等)的信息。在一些实施例中,在当前用户事件中的每个由引擎170处理之后,模块175可以发送当前用户事件的数据(经处理并被储存其中)到要添加到的数据库150,因此更新之前用户数据以用于处理未来用户事件(发生在当前用户事件之后)。另外的,基于当前用户事件的处理,引擎170还可以发送数据到事件日志/数据库150,数据包括但不局限于在当前用户事件数据的处理过程中由引擎170所生成和确定的(一个或多个)特征值集合、与(一个或多个)特征值集合相关的概率值、(一个或多个)流量质量分数等等。如之后将描述的,引擎170可以接收或检索来自数据库150的与过去用户事件相关的数据以计算针对当前用户事件的事件层流量质量分数。
除在110处的用户之外,诸如180的用户的不同类型(其可以是系统运行器或管理器)还可以能够针对不同的管理工作(诸如安排事件日志数据库150、事件信息处理模块175等等)与系统100的不同元件(诸如流量质量引擎170等)交互。在一些实施例中,用户180可以归类到在更多可操作的问题上具有比用户110更高的特权来安排事件日志数据库150和/或事件信息处理模块175。例如,用户180可以被配置以能够更新检索的主题或储存在事件日志数据库中的数据的格式,用模块175所收集的数据的格式、或者测试流量质量引擎170。在一些实施例中,流量质量引擎170以及相关的事件日志数据库150可以作为第三方服务提供者,因而发布者130、广告商140以及用户180可以是流量质量引擎170的客户。在这种情况下,用户180可以配置分开的数据/过程,因而对于不同客户的服务可以基于不同数据/过程运行的参数以提供个性化的服务。
图1(b)示出类似图1(a)中的系统配置,除了广告商140现在被配置作为发布者130的子系统。如图1(c)中所示的一些实施例中,可以存在其它不同的系统配置,其中管理器用户180可以通过互联网或专有的网络连接(未被示出)单独管理流量质量引擎170以及事件日志150。应当注意如在图1(a)-图1(c)中示出的不同结构还可以以适合于特定的应用情境的任何方式被混合。
根据本公开所示的实施例,图2是示例的流量质量引擎170的高层次描述。如所示的,流量质量引擎170包括采样事件单元205、特征集合引擎210、以及流量质量单元215。流量质量引擎170可以例如在采样事件单元205接收来自模块175的表明用户和在线内容与(一个或多个)广告的交互(曝光、点击等)的与当前用户事件相关的数据,以及来自事件日志150的与过去用户事件相关的数据,并且诸如在特征集合引擎210处处理这种事件数据以生成针对当前用户事件的特征值集合。更进一步地,至少部分地基于特征值集合和过去用户事件数据,流量质量单元215可以针对当前用户事件生成事件层级的流量质量分数,其可以作为确定针对与当前用户事件相关的实体中的每个的实体层级的流量质量分数的基础。
根据本公开的实施例,图3是在流量质量引擎170处被操作的示例过程300的流程图。在305处,在采样事件单元205和/或在通信平台/接收器处从模块175接收与当前用户事件相关(诸如关于涉及当前事件的实体的信息等等)的数据。在310处,在采样事件单元205和/或在通信平台/接收器处从日志150接收与过去用户事件(诸如关于涉及过去用户事件中的每个实体的信息等等)相关的数据。在315处,所接收的当前和过去的事件数据由特征集合引擎210处理以针对当前用户事件(其跨多个实体维度来计量流量多样性)生成数特征值集合。在320处,至少部分地基于特征值集合以及过去用户事件数据,由流量质量单元215生成针对当前用户事件的事件层级的流量质量分数。
根据本公开的第一实施例,图4(a)是示例的特征集合引擎210的高层次描述。如示出的,特征集合引擎可以包括元件组合单元405以及特征集合安排单元410。元件组合单元405可以接收来自采样事件单元205(从事件日志150的所接收的)的与过去用户事件相关的数据。过去用户事件数据可以包括在特征集合引擎210处对于过去事件的先前已计算并储存在事件日志150处的过去用户事件(例如n个过去事件)的具体数量中的每个的特征值集合。特征值集合(针对当前用户事件与过去用户事件)中的每个可以是真实数字或基数等于m×(m-1)的整数值的集合,其中m是不同类型的实体的数量。例如,如果对于示例的系统100,我们考虑实体的三种类型:用户、发布者以及广告商,那么特征值集合(针对当前用户事件与过去用户事件)的基数就是3×(3-1)=6,即特征值集合将具有总共的六个值。除了过去用户事件数据之外,元件组合单元405还接收来自事件信息处理模块175的与当前用户事件相关(例如关于与当前用户事件相关的具体实体的信息等等)的数据。
基于当前和过去用户事件数据,元件组合单元405可以被配置以针对当前用户事件的特征值集合中的每个元件来计算过去用户事件的特征值组中的相应的元件的加权组合。例如,由ri所代表的当前用户事件(其中i代表当前事件的时间索引或槽(slot)),ri的即将被确定的特征值被表示为xi(j),其中j=1,2,...,m×(m-1)是对于在特征集合中的特征的索引。相应地,针对n个过去用户事件的数据(包括特征值集合)在元件组合单元405被接收,上述n个过去用户事件被表示为ri-1、ri-2、...、ri-n,其对应的特征值集合被表示为xi-1、xi-2、...、xi-n,每个都包括×(m-1)特征值。在一个实施例中,元件组合单元405计算jth特征值中的每个,针对当前用户事件计算xi(j),基于过去用户事件的特征值集合的对应的jth特征值的加权组合计算ri。具体地,元件组合单元405计算jth特征值中的每个,针对当前用户事件的xi(j),通过(例如运用硬件处理器)计算下列(线性的)数学表达式/公式:
其中wi-k(j)表示应用于(i-k)th用户事件的特征值集合的jth特征值的权值,并且基于下列公式(2)被计算:
其中τ是衰减因子以控制加权值的衰减速度。
元件组合单元405之后提供针对当前用户事件的所计算的特征值xi(j),提供ri到安排和/或格式化其特征值到一个集合并且储存完整的特征值集合的特征集合安排单元410,提供xi到与特征集合引擎210和/或流量质量引擎170可操作地相联系的存储器或存储单元中。更进一步地,单元410还提供特征值集合xi到流量质量单元215用于流量质量分数的计算。
根据对应图4(a)的上述实施例,图4(b)是在特征集合引擎210处操作的示例过程400的流程图。在450处,从采样事件单元205接收与过去用户事件相关的数据,并且与当前用户事件相关的信息在元件组合单元405处被接收。过去用户事件数据可以包括针对过去事件的在特征集合引擎210处之前被计算并储存在事件日志150中的过去用户事件的具体数量(例如n个过去事件)中的每个的特征值集合。在455处,基于当前和过去用户事件数据,针对当前用户事件的特征值集合中的每个元件,在过去用户事件的特征值集合中的相应元件加权组合值可以(诸如基于上述公式(1)与公式(2)由单元405)被计算。在460处,针对当前用户事件的所计算的特征值可以作为单独的集合被安排和/或格式化,并且被储存在相关联的存储器或存储单元中,以及被提供到流量质量单元215用于与流量质量评分的确定相关的更进一步地处理。
根据本公开的第二个实施例,图5(a)是示例的特征集合引擎210的高层次描述。如示出的,特征集合引擎210可以包括区别实体计数(DEC)单元505、事件实体计数(EEC)单元510、特征子集(FS)单元515以及特征集合安排单元520。在此实施例中,当前用户事件的特征值集合是与当前用户事件相关联的每个具体实体的特征值子集的组合(例如用户110、发布者130、广告商140)。例如,在此实施例中,首先,与当前用户事件相关联的一个或多个实体中的每个的特征值子集被计算(例如基于当前和过去的用户事件数据并且使用相应的DEC单元505、EEC单元510以及FS单元515),然后基于这些特征值子集使用单元520确定当前用户事件的完整的特征值集合。
相应的,特征集合引擎210可以包括对应与当前用户事件相关联的m个实体中的每个的DEC单元505、EEC单元510以及FS单元515的集合。出于简化目的,本文假设当前用户事件与m种不同类型的实体的每一种的仅仅一个实体相关,并且因此与总共m个实体相关,但是在本公开的情境中此假设并不局限或解释如此。
在操作中,DEC单元505以及EEC单元510中的每个可以接收与来自采样事件单元205的过去用户事件相关的数据(所接收的来自事件日志150的数据)。过去用户事件数据可以包括针对过去事件的在特征集合引擎210处之前被计算并储存在事件日志150中的过去用户事件的具体数量(例如n个过去事件)中的每个的特征值集合。如上述讨论的,特征值集合(针对当前用户事件与过去用户事件)中的每个可以基数等于m×(m-1)的实数或者整数值,其中m是实体的不同类型的数量。例如,如果针对示例的系统100,我们考虑实体的三种类型:用户、发布者、广告商,则特征值集合的基数(针对当前事件或过去事件)是3×(3-1)=6,即特征值集合将具有总共值六。除了过去用户事件数据,DEC单元505与EEC单元510也接收来自事件信息处理模块175的关于当前用户事件的数据(例如关于与当前用户事件相关的具体实体的信息)。
基于所接收的数据,使S={r1,r2,...,rn}是所有过去用户事件的集合(针对具体的时间段记录,诸如一星期),并且是实体类型k的实体集合,以及mk是类型k的实体的总数量。更进一步地,包含或与具体实体ek,j相关联的所有事件的集合S(ek,j)被定义为S(ek,j)={ri|ri,k=ek,j,i=1,...,n},其中ri,k是ri在实体集合Ek的投影。在一些实施例中,对于与当前用户事件相关联的实体ek,j(即类型k的jth实体),DEC单元505-k可以确定类型k’的实体的不同数量,其中k′≠k(k在集合S(ek,j)中)。具体地,DEC单元505-k可以计算:
lk′(ek,j)=distinct_count{ri,k′|ri∈S(ek,j)},k′≠k (3)
不同实体计数的相似的确定在DEC单元505中的每个被执行,并且针对每个实体的不同的实体计数被提供到相应的FS单元515。
更进一步地,在一些实施例中,针对与当前用户事件相关联的实体ek,j,EEC单元510-k可以确定过去所记录的事件的总数n(ek,j),其中实体ek,j是参量(participant)。EEC单元510-k可以计算:
n(ek,j)=|S(ek,j)| (4)
实体事件计数的相似的确定在EEC单元510中的每个被执行,并且针对每个实体的实体事件计数被提供到相应的FS单元515。
基于不同的实体计数和实体事件计数,FS单元515中的每个可以计算相应的实体的特征子集(从与用户事件相关的m实体中)。具体地,对于实体ek,j,FS单元515-k可以确定特征子集如下:
其中公式(5)中的比值基于用公式(3)和(4)的由DEC和EEC单元所提供的值而被计算。
更进一步地,FS单元515-k中的每个提供实体具体特征子集(来自公式(5))到被配置以针对当前用户事件ri的整个特征值集合确定特征集合xi的安排单元520。具体地,单元520针对在下面公式(6)中的子集安排特征子集以获得当前用户事件的特征值集合:
xi=(f(ri,1),f(ri,2),...,f(ri,m))∈Rm(m-1) (6)
特征集合安排单元520可以提供特征值集合到流量质量单元215用于与流量质量评分的确定相关的进一步处理。
因为此特征值集合包括针对(每种类型的)相关联的实体中的每个的特征,特征值集合代表横跨涉及用户事件的系统100的实体的大多数或全部的不同类型的流量多样性的测量。从广告商的观点出发,他们不仅仅希望触及(reach)尽可能多的人(作为流量体积而测量),他们还希望触及尽可能宽泛和不同的用户库(诸如基于不同的用户ID、IP地址等等)。因此,流量体积和广度是对于广告商确定他们的广告策略是否有效的确定的两个重要的因素。例如如果观察到大量的流量,但是仅仅来自少数量的区别用户,对于广告商来说可能是非有效的或有效率的。事实上,一些广告商可以要求通过发布者基于不同用户的数量(基于IP地址等等)而不是他们触及到的用户的总数来被收费。为了那个目的,在特征值中的流量敛散性特征可以提供一些益处。首先,特征值集合将流量的体积与不同用户的广度两者都考虑在内。其次,它是可延伸的和可变的,由于在系统100内的实体的总数量或者实体的类型是变化的,特征值集合的值或内容可以被生成和用于相应的分数确定(例如通过加入用于由特征集合引擎210的计算的更多的实体而获得更多的特征)。最后,由于实体、DEC单元的分开的单元、EEC单元510以及FS单元515中的每个可以被实现和应用,特征集合引擎210的全部的操作可以与针对更快的执行的平行操作的原则相一致地被实现。
根据对应图5(a)的上述实施例,图5(b)是特征集合引擎210处被操作的示例过程500的流程图。在550处,从采样时间单元205接收与过去用户相关的数据被接收,以及与当前用户事件相关的信息在DEC单元505与EEC单元510处被接收。过去用户事件数据可以包括针对过去事件的对于在特征集合引擎210处先前所计算并储存在事件日志150处的过去用户事件的具体数量(诸如n过去事件)中的每个的特征值集合。在555处,基于当前和过去用户事件数据,对于与当前用户事件相关联的实体中的每个,实体k′的不同数量可以由相应的DEC单元505-k(诸如基于公式(3))所确定。在560处,基于当前和过去用户事件数据,针对与当前用户事件相关联的实体中的每个,过去所记录的事件的总数,n(ek,j),其中ek,j是由相应的EEC单元510-k(诸如基于公式(4))所确定的参量。更多地,在565处基于不同的实体计数(555)与实体事件计数(560),FS单元515-k中的每个可以(诸如基于公式(5))计算相应实体的特征子集。在570处,实体具体特征子集(565)被提供到特征集合安排单元520,并且基于这些子集,针对当前用户事件的整个特征值集合由与单元520所执行的公式(6)一致的安排所确定,并且被提供到流量质量单元215用于与流量质量评分系统相关的进一步的处理。
根据本公开的一个实施例,图6(a)是示例流量质量单元215(未在图2中示出)的高层次描述。如示出的,流量质量单元215可以包括特征组合(FC)单元605以及流量分数生成(TSG)单元610。FC单元605可以接收来自特征集合引擎210的针对当前用户事件的特征值集合,并且基于线性的(非线性的)模型处理特征集合。例如,FC单元605可以计算当前用户事件的特征值集合(可以总共包括例如p值)的特征值的加权总和(“ws”)。具体地,FC单元605可以计算加权总和,基于:
其中wi是分配给每个特征值的个体的权重,并且可以基于一定数量的因子的一个或多个(诸如事件的类型、与事件相关联的实体的类型等等),或者可以由系统100的一个或多个的实体被预先选定与预先设置。在一个实施例中,所有的加权值w可以被设置为等于一,或应用逻辑回归来自动地调整。FC单元605可以应用公式(7)计算具有不同权重值的多个加权和,并且提供这些多个加权和到TSG单元610用于来确定当前用户事件的事件层流量质量分数的进一步处理。
在一些实施例中,TSG单元610选择由FC单元605的所提供的多个加权和中的一个作为当前用户事件的事件层流量质量分数,诸如事件的类型、与事件相关联的实体的类型、与当前用户事件相关的实体的总数量、和/或其它被定义的信息或动态系统信息。然而如果存在由FC单元605所提供的仅仅一个加权和值,那么TSG单元610赋值给加权和值作为事件层流量质量分数。
根据相对于图6(a)的上述实施例,图6(b)是在流量质量单元215处操作的示例过程600的流程图。在650处,针对当前用户事件的特征值集合可以从特征集合引擎210被接收到FC单元605处,特征集合可以基于线性的(或非线性的)模型被处理。例如,FC单元605可以基于权值的一个或多个集合来计算对应公式(7)的特征值集合的值的加权和。在655处,这些一个或多个加权和在TSG单元610处被接收,用于例如一个或多个加权和中的一个作为当前用户事件的事件层流量质量分数的选定。这种选定可以基于确定的标准,诸如事件的类型、与事件相关联的实体的类型、涉及当前用户事件的实体的总数量,和/或其它提前定义的信息或动态系统信息。
根据本公开的其它实施例,图7(a)是示例的流量质量单元215(未在图2中示出)的高层次描述。流量质量单元215可以依照监督式的机器学习的模型被实现,例如(但不局限于)可以被用来构建分类器来对每个事件进行评分的逻辑回归、贝叶斯定理、支持向量机(SVM)。这种流量质量单元215的非限制性的实施例可以基于朴素贝叶斯模型被实现。如示出的,流量质量单元215可以包括概率计算器720以及流量分数生成单元730。
在一些实施例中,由于特征值通常不是高斯分布的,特征值的概率分布可能不是已知或已假设的。相应地,有大量数据的时候,特征值的直方图可以被作为概率对待,即每个特征值可以被离散到桶中并且每个桶值的出现概率相应地被计算来确定与特征值集合(在朴素贝叶斯模型中使用以计算事件分数)相关的概率。以这种方式,在操作中,概率计算器720可以接收过去用户事件(例如来自采样单元205或直接地来自日志150)的特征值集合以及当前用户事件(例如特征集合引擎210)的特征值集合。例如,概率计算器720可以接收过去n事件的特征值集合,并且完整的过去特征集合X可以被表达为X={x1,x2,...,xn},其中xi={xi,1,xi,2,...,xi,c}是ith过去用户事件的特征集合并且xi,j是它的jth特征值。概率计算器720可以计算过去用户事件的特征值集合的概率分布(例如作为直方图)以及基于过去用户事件的特征值集合的概率直方图来(有条件的)计算当前用户事件的特征值集合的元件的概率值。
除了特征值集合之外,概率计算器720和/或流量分数生成器730可以接收有效或无效的过去用户事件的先验概率。具体地,应用其事件被标记为有效的或无效的,在线广告平台中的大部分反欺诈系统具有一些简单规则过滤器。以这种方式,过去用户事件中的每个(在本文中其数据在系统100中以各种方式应用)被预先标识为有效的或无效的,例如对于过去用户事件相应的事件分数(以与当前用户事件的分数确定相似的方式由流量质量引擎170所计算的)采用确定的有效性阈值。如果过去用户事件的事件分数比有效性阈值小,那么这个过去事件可以被认为是无效的,否则是有效的(反之亦然)。以这种方式,有效性集合Y被表示为Y={y1,y2,...,yn},其中如果事件ri是无效的则yi=0,如果事件ri是有效的则yi=1。基于针对n过去用户事件的可获得的有效/无效的标记,有效的(即P(y=1))或无效的(即P(y=0))过去事件的概率可以用有效性集合值Y(例如由本文中的流量质量引擎170或模块)来计算,并且被提供到概率计算器720和/或流量分数生成单元730。
针对当前用户事件流量分数生成器730可以(有条件的)基于(来自单元720的)当前用户事件的特征值集合的元件的概率值来生成流量质量分数以及对于有效的(P(y=1))和无效的(P(y=0))过去用户概率事件的先验概率值。在一个实施例中,依照朴素贝叶斯模型,分数生成器730计算具有集合的势等于d的特征值集合xnew的当前事件rnew(来自210处)的分数如下:
根据相对于图7(a)的上述实施例,图7(b)是在流量质量单元215处操作的实例过程700的流程图。在750处,过去用户事件的特征值集合的概率分布(例如直方图)由概率计算器720计算。在755处,基于过去用户事件的特征值集合的概率直方图的当前用户事件的特征值集合的元件的(有条件的)概率值由概率计算器720所计算。这些概率可以基于在计算器720处所接收的来自采样单元205或直接来自日志150的过去用户事件的特征值集合以及在计算器720处所接收的来自特征集合引擎210的当前用户事件的特征值集合而计算。
在760处,针对当前用户事件的流量质量分数可以基于(来自单元720的)当前用户事件的特征值集合的元件的(有条件的)概率值在流量分数生成器730处被生成,以及针对有效的或无效的过去用户事件的先验概率。
根据本公开的实施例,图8(a)是示例概率计算器720(在图7(a)中示出)的高层次描述。如示出的,计算器720包括离散单元805、直方图生成器810、以及概率生成器815。离散单元805可以离散针对n过去用户事件的完整的过去特征集合X={x1,x2,...,xn}的特征值xi,j中的每个并且还离散当前用户事件的特征值xnew,依据下列数学公式:
其中,B是直方图桶的数量,以及
分别是特征值xi,j的最小值和最大值。
如上述所讨论的,由于特征值通常不是高斯分布的,特征值的概率分布可能不是已知的或已假设的。相应地,在离散特征值(例如基于公式(9)用805)之后,过去用户事件的特征值可以在直方图中表示,并且针对任何新的当前用户事件的(离散的)特征值,它们相关绝对的或条件概率(诸如用公式(8)来确定事件分数所要求的那些概率)可以被用直方图确定。在这方面,直方图生成器810可以用从离散单元805获得的离散特征值来生成并且(在相关的存储器中)储存特征值直方图,并且直方图连同当前用户事件的离散特征值一起被提供给概率生成器815。概率生成器815可以生成与当前用户事件的特征值xnew相关的概率提供到流量分数生成器730来确定事件分数(例如基于公式(8))。例如,使xq是集合xnew的特征值的一个并且已经被离散。假设xq仅仅具有n不同的值,v1、v2、...、vn,以及由直方图所表明的上述值的频率是m1、m2、...、mn,则由概率生成器815确定的xq的概率等于vi,是:
针对条件概率:
P(xq|y=1)
以及
P(xq|y=0),
概率生成器815关于(或在下述条件下)对于有效的P(y=1)与或无效的P(y=0)过去用户事件的先验概率用公式(10)来确定概率。之后这些条件概率被提供到单元730来确定事件分数。
针对相对于图8(a)的上述实施例,图8(b)是在概率计算器720处操作的示例过程800的流程图。在850处,用诸如离散单元805离散过去用户事件的特征值。在855处,用直方图生成器810生成(并且储存)基于(来自单元805的)离散的特征值的特征值直方图。在860处,用诸如离散单元805离散当前用户事件的特征值。在865处,基于特征值直方图在概率生成器815处生成与当前用户事件的特征值xnew相关的概率(将被提供到流量分数生成器730来确定事件分数)。
从(如上述所讨论的)流量质量170和各种相关的模块获取事件层流量质量分数之后,针对具体实体(用户110、发布者130、广告商140等等)的流量质量分数可以是满足需要的,用来标识在线广告策略的效果、对广告商要价或在发布者处对广告机会定价、确定响应/非响应特定在线广告策略的(一个或多个)目标用户群体等等。换言之,由于与系统100中各种不同的方面(用户、发布者、广告商等等)相关,实体层的流量质量分数可以提供关于在线广告活动的洞察。相应地,关于图1(a)-图1(c)的流量质量引擎170可以包括实体流量质量单元905,其高层次描述根据本公开的实施例在图9(a)中示出。实体流量质量单元905可以接收涉及具体实体和在特定时间段发生的多个当前用户事件的流量质量分数,计算那些当前用户事件的流量质量分数的统计测量,以及基于统计测量来生成针对特定实体的实体流量质量分数。
例如,针对具体实体E,它相关的分数可以被作为随机变量对待,例如分数具有概率分布x~N(μ,σ2)。实体流量质量单元905可以基于事件分数(x1,x2,x3...,xn)计算s的实际平均值的估计,即μ。在一个实施例中,实体流量质量单元905可以用点估计来确定作为平均值的实体层分数E,事件分数的μ,例如基于下面公式:
然而,用公式(11)的方法并未考虑数字N在内。例如,如果N很小那么均值估计可能不如所期待的精确。相应地,在其它实施例中,实体流量质量单元905考虑N在内计算平均值的估计。具体地,单元905用区间估计而不是点估计来得到针对的置信区间基于:
其中,s由单元905计算如:
以及,计算区间大小等于:
然后假设区间大小被预先确定为δ,之后基于下面的公式(15),单元905可以计算针对的置信水平(1-α)。
最后,基于置信水平(1-α),实体流量质量单元905确定针对实体E的实体级分数等于:
这里应当注意,随着N增长,也增长,这是合理的,因为如果具有更多的采样,那么平均值μ所落在的置信区间的置信度会更大。
根据相对于图9(a)的上述实施例,图9(b)是在实体流量质量单元905处操作的示例过程900。在905处,涉及具体实体(诸如E)和发生在特定时间段(例如一小时、一天、一星期等等)的多个当前用户事件的流量质量分数被接收,并且那些当前用户事件的流量质量分数的统计测量由单元905诸如基于公式(11)-公式(15)计算。在955处,针对具体实体E的实体流量质量分数由单元905诸如基于公式(16)基于统计测量计算。
针对上述讨论的关于流量质量引擎170和其中的各种元件的评分模型存在许多潜在应用的情况,上述情况提供事件层和实体层的流量质量分数。例如,相对于流量质量洞察,给定诸如发布者或广告商的具体实体,关于它的流量质量的详细信息可以通过它的相关事件层流量质量分数分布获得。在一些实施例中,报警系统可以基于(事件层或实体层的)流量质量分数构建。例如,一个或多个具体实体的分数,诸如发布者130或广告商140,可以被监控,并且当分数违背预先定义的阈值(诸如超过或低于)的任何时刻,警报可以被自动发送到所关注的实体来告知流量质量。在这种情况下,实体可以响应警报采取进一步前瞻性的动作来调查和删除潜在的错误。就这一点而言,系统100(在图1(a)-图(c)中)还可以包括警报通知单元1005,其高层次描述根据本公开的实施例在图10(a)中示出。警报通知单元1005包括分数比较单元1010、警报生成单元1015以及警报传输单元1020。分数比较单元1010可以被配置以接收与(来自流量质量170的)具体实体相关的(一个或多个)事件层分数和/或(一个或多个)实体层分数,并且比较具体实体的(实体层)分数与预先定义的阈值,来确定阈值是否被违背,其作为触发起作用生成针对实体的警报。存在与单元1010相关联(或储存在其中)的一个或多个预先定义的阈值,上述阈值可以由系统100中的各种实体(用户110、发布者130、广告商140等等)所表示。在一些实施例中,针对实体的每一种类型存在一个预先定义的阈值,其基于在系统100中的类型的实体数量和/或其它基于系统的因子而被表示。
基于来自单元1010的分数比较结果,如果具体实体的实体流量质量分数被确定已经违背阈值,那么警报生成单元1015可以生成警报(例如在文本消息、或作为音频、视频、和/或以其它格式)。更进一步地,警报传输单元1020可以通过通信平台和/或网络120和/或其它通信方式来传达在单元1015处生成的警报到具体实体。
根据相对于图10(a)的上述实施例,图10(b)是在警报通知单元1005处操作的示例过程1050的流程图。在1060处,基于针对(来自单元1010的)具体实体的分数比较结果,如果具体实体的实体流量质量分数被确定已经违背阈值,那么警报(例如以文本消息、或作为音频、视频、和/或以其它格式的警报)可以被生成(在警报生成单元1015)。在1070处,警报通知被传达到具体实体,表明流量质量低于可接受的水平,并且进一步的改正的动作可能被需要用于提高相对于那个实体的流量质量。
在另一个实施例中,基于事件层或实体层的分数的基于流量质量的定价或智能地定价可以在系统100中实现。例如,针对经受由低质量分数所表明的低流量质量的实体(诸如广告商140),在广告服务的定价中的折扣可以由系统100中的定价单元计算。定价单元可以计算在常规广告价格上的折扣或者最终的已折扣后的价格,例如,通过基于所观察到的流量分数而按比例分配针对确定的“常规”流量分数的价格或收费。在另一个实施例中,实体层分数可以被用来瞄准。例如,广告商可以拒绝瞄准被评分较低于针对那个实体类型的确定的可接受的分数预设的用户/IP/发布者。
图11示出了一般的移动设备架构,本教导可以在此架构上实现。在此示例中,在用户设备上的内容和广告被表示以及交互,用户设备是移动设备1100,包括但不局限于智能手机、平板电脑、音乐播放器、掌上游戏操控器、全球定位系统(GPS)接收器、以及可穿戴计算设备(例如眼镜、腕表等等)、或以其它形式的要素。在示例中的移动设备1100包括一个或多个中央处理单元(CPUs)1102,一个或多个图像处理单元(GPUs)1104、显示器1106、存储器1108、通信平台1110、诸如无线通信模块、存储设备1112、以及一个或多个输入/输出(I/O)设备1114。任何其它合适的元件,例如但不局限于系统总线或控制器(未被示出)也可以被包括在移动设备1100中。如图11中示出,移动操作系统1116,诸如iOS、Android、Windowsphone等等,以及一个或多个应用1118可以从存储设备1112被下载到存储器1108里从而由CPU1102执行。应用1118可以包括浏览器或用于在移动设备1100上接收或呈现(render)内容流和广告的任何其它合适的移动应用。
实现本公开中描述的各种模块、单元以及他们的功能,计算机硬件平台可以作为针对本文描述的一个或多个的元件的(一个或多个)硬件平台(诸如流量质量引擎170、事件处理单元175、以及相对于图1-10所描述的其它相关的模块/元件)使用。这种计算机的硬件元件、操作系统以及编程语言事实上是传统的,并且假设本领域技术人员对此足够熟悉来用那些技术实现本文所描述的流量质量评分。具有用户接口元件的计算机可以用来实现个人计算机(PC)或任何类型的工作站或终端设备,虽然计算机如果恰当地被编程还可以作为服务器的角色。应当相信本领域技术人员对于这种计算机器材的结构、程序以及通常的操作是熟悉的,并且因而附图应该是一目了然的。
图12示出了通常的计算机架构,本教导可以在上述计算机架构上实现,图12是包括用户接口元件的计算机硬件平台的功能框图的示出。计算机可以是通常用途的计算机或者特殊用途的计算机。这种计算机1200可以被用来实现人本文所述的流量质量评分的任何元件。例如,流量质量引擎170以及各种模块,甚至信息处理单元175等等,可以在计算机上诸如1200通过它的硬件、软件程序、固件、或上述的组合而全部实现。尽管这种计算机的仅仅一个被示出,为了方便,涉及动态关系与甚至检测的计算机功能可以在一定数量的类似平台上以分散式的方式被实现,来分散处理的负载。
例如,计算机1200包括被连接网络到或连接自网络的COM端口1250来辅助数据通信。计算机1200还包括用来执行程序指令的以一个或多个处理器的形式的中央处理器(CPU)1220。示例的计算机平台包括内部通信总线1210、不同形式的程序存储设备以及数据存储设备,诸如硬盘1270、只读存储器(ROM)1230、或随机存储器(RAM)1240、用于被计算机处理和/或通信的各种数据文件,以及被CPU执行的可能的程序指令。计算机1200还包括I/O元件1260,支持计算机与其它元件(诸如用户接口元件1280)之间的输出/输出流。计算机1200还可以通过网络通信来接收编程以及数据。
因此,上述的生成事件层和实体层的分数和/或其它步骤的方法的方面,可以在编程中被体现。技术的程序方面可以被当做具体以可执行的代码和/或相关数据为形式的在机器可读介质的类型中被进行或体现的“产品”或“制造的物品”。有形的非暂态“储存部分”类型介质包括可以在任何时间给软件编程提供存储设备的针对计算机、处理器或类似元件的任何或全部的存储器或其它储存部分,或相关的模块,诸如各种半导体存储器、磁带驱动器、硬盘驱动器或相似的。
软件的全部或部分可以有时通过诸如互联网或各种其它通信网络的网络来通信。例如这种通信可以使得来自一个计算机或处理器的软件能够下载到另一个,例如从搜索引擎操作器或其它解释生成服务提供者的管理服务器或主机,到计算环境或实现计算环境的其它系统或与基于用户要求生成解释的类似功能的(一个或多个)硬件平台。因此,可能具有软件元件的介质的其它类型包括光子、电子以及电磁的波,诸如横跨在本地设备之间的物理接口、通过有线的和光子地上线路网络以及在各种空中链路上被使用。承载这种波的物理元件,诸如有线的或无线的链路、光学链路或类似的,也可以被当做具有软件的介质。如本文所使用的,除非限制到有形的“存储设备”介质,诸如计算机或机器“可读介质”的术语涉及参与到提供指令到用于执行的处理器的任何介质。
因此,机器可读的介质可以具有许多形式,包括但不局限于有形的存储设备介质,载波介质或物理传输介质。永久性存储设备介质包括,诸如光学或磁的硬盘,例如任何(一个或多个)计算机中的任何存储设备或类似的,可以被用来实现如附图中所示的系统或任何其元件。非永久性存储设备介质包括动态存储器,诸如这种计算机平台的主存储器。有形的传输介质包括同轴线缆、铜线和光导纤维,包括形成计算机系统中的总线的线。载波传输介质可以具有电子的或电磁信号的、或诸如在无线电频率(RF)以及红外线(IR)数据通信中生成的那些声波或光波的形式。计算机可读的介质的普遍形式因此包括诸如软盘、可折叠磁盘、硬盘、磁带、任何其它的磁介质,只读光盘驱动器(CD-ROM)、数字化视频光盘(DVD)或高密度只读光盘(DVD-ROM),或任何其它光学介质,穿孔卡片纸带,具有孔的样式的任何其它物理存储介质,RAM、可编程序只读存储器(PROM)以及可擦可编程只读存储器(EPROM),快擦编程只读存储器(FLASH-EPROM)任何其它存储器芯片或卡盘,载波运输数据或指令,线缆或链路运输这种载波,或任何其它的介质(计算机可以从中读取编程代码和/或数据)。计算机可读介质的这些形式中的许多可以涉及运载一个或多个指令的一个或多个序列到处理器用于执行。
本领域技术人员将认知到本教导可修改到多种改进和/或改善。例如,虽然上述的各种元件的实现可以体现在硬件设备中,它还可以被作为仅仅涉及软件的解决方案而实现,例如在现有服务器上的安装。此外,如本文所公开的动态关联/事件检测器和元件可以作为固件、固件/软件组合、固件/硬件组合、或硬件/固件/软件组合而被实现。
尽管前述已经描述了被视作最优的模式和/或其它示例,应当理解各种改进可以被实施并且本文所公开的主题可以在各种形式和示例中实现,以及教导可以在大量应用中采用,其中仅仅有一些被在本文中公开。下列权利要求意在要求落在本教导的真实范围内的任何或全部的应用、改进以及变化。

Claims (22)

1.一种被实现在具有至少一个处理器、存储器、以及能连接到网络的通信平台量的机器上以确定流量质的方法,该方法包括:
通过所述通信平台接收与表明用户与在线内容相关的当前用户事件相关的数据,其中与所述当前用户事件相关的数据包括关于与所述当前用户事件相关联的实体的集合的信息;
基于关于与所述当前用户事件相关联的实体的集合的所述信息来生成针对所述当前用户事件的特征值集合;以及
至少部分地基于所述特征值集合确定针对所述当前用户事件的流量质量分数。
2.根据权利要求1所述的方法,其中,所述当前用户事件的所述流量质量分数基于所述特征值集合的元件的加权组合而确定。
3.根据权利要求1所述的方法,进一步包括从事件日志中检索与所述表明用户与在线内容的交互的多个过去用户事件相关的数据,其中所述与上述多个过去用户事件中的每个相关的数据包括关于与所述过去用户事件相关联的实体的集合,
其中生成包括:基于关于与所述当前用户事件相关联的实体的集合的信息、以及关于与所述多个所述过去用户事件相关联的实体的集合的信息,来生成针对所述当前用户事件的特征值集合。
4.根据权利要求3所述的方法,其中,基于所述当前用户事件的特征值集合的元件的概率值、针对有效的多个过去用户事件的先验概率、以及针对无效的多个过去用户事件的先验概率,来确定所述当前用户事件的流量质量分数,
其中所述当前用户事件的特征值集合的元件的概率值基于所述多个过去用户事件的特征值集合的概率分布。
5.根据权利要求3所述的方法,其中,所述生成包括:基于所述多个过去用户事件的特征值集合的相应元素的加权组合来生成针对所述当前用户事件的特征值集合中的每个元素。
6.根据权利要求1所述的方法,还包括基于涉及所述实体的所述多个当前用户事件的流量质量分数的统计测量来生成来自与所述当前用户事件相关的实体的集合的实体流量质量分数。
7.根据权利要求1所述的方法,其中与所述当前用户事件相关联的所述实体的集合包括用户身份、用户IP地址、在线内容的发布者、发布与在线内容相联系的广告的广告商、以及创造性的实体。
8.根据权利要求1所述的方法,其中,所述当前用户事件包括由用户在网页上的广告显示的点击,以及与由用户点击启动的广告相关联的产品或服务相关的财务交易。
9.一种具有信息被记录在其中来确定流量质量的机器可读的、有形的、非暂态的介质,其中当所述信息由机器读取的时候,导致所述机器至少执行以下步骤:
通过所述通信平台接收与所述表明用户和在线内容交互的当前用户事件相关的数据,其中与所述当前用户事件相关的数据包括关于与所述当前用户事件相关联的实体的集合的信息;
基于所述关于与当前用户事件相关联的实体的集合的信息生成针对所述当前用户事件的特征值集合;以及
至少部分地基于所述特征值集合确定针对所述当前用户事件的流量质量分数。
10.根据权利要求9所述的介质,其中,针对所述当前用户事件的流量质量分数基于所述特征值集合的元素的加权组合来确定。
11.根据权利要求9所述的介质,其中,当所述信息被所述机器读取时,导致所述机器进一步地执行下述步骤:
从所述事件日志中检索与所述表明用户和在线内容交互的多个过去用户事件相关的数据,其中所述与所述多个过去用户事件中的每个相关的数据包括关于所述与所述过去用户事件相关联的实体的集合的信息,
其中生成包括:基于关于与所述当前用户事件相关联的实体的集合的信息,以及关于与所述多个过去用户事件相关联的实体的集合的信息,生成针对所述当前用户事件的特征值集合。
12.根据权利要求11所述的介质,其中,基于所述当前用户事件的特征值集合的元素的概率值、针对所述有效的多个过去用户事件的先验概率、以及针对所述无效的多个过去用户事件的先验概率来确定针对所述当前用户事件的所述流量质量分数,
其中,所述当前用户事件的特征值集合的元素的概率值基于所述多个过去用户事件的特征值集合的概率分布。
13.根据权利要求9所述的介质,其中,当所述信息被所述机器读取时,导致所述机器进一步地执行:基于涉及所述实体的所述多个当前用户事件的流量质量分数的统计测量来生成针对来自与所述当前用户事件相关联的实体的集合中的所述实体的事件流量质量分数。
14.根据权利要求9所述的介质,其中,与所述当前用户事件相关联的所述实体的集合包括所述用户身份、所述用户IP地址、所述在线内容的发布者、所述发布与在线内容相关联的广告的广告商、以及所述创造性实体。
15.根据权利要求9所述的介质,其中,所述当前用户事件包括由所述用户在所述网页上显示的广告的点击、以及与由所述用户所点击的广告相关联的所述产品或服务有关的财务交易。
16.一种用来确定事件层级的流量质量的系统,该系统包括:
通信平台,被配置以接收与表明所述用户和所述在线内容交互的所述当前用户事件相关的数据,其中与所述当前用户事件相关的数据包括关于与所述当前用户事件相关联的实体的集合的信息;
特征值引擎,被配置以基于关于与所述当前用户事件相关联的实体的集合的信息来确定针对所述当前用户事件的特征值集合;以及
流量质量引擎,被配置以至少部分地基于所述特征值集合来确定针对所述当前用户事件的流量质量分数。
17.根据权利要求16所述的系统,其中,所述流量质量引擎包括:
特征组合单元,被配置以计算特征值的所述元素的加权组合值;以及
流量分数生成器,被配置以基于来自所述特征组合单元的加权组合值来生成针对所述当前用户事件的流量质量分数。
18.根据权利要求16所述的系统,进一步地包括:
采样时间单元,被配置以从所述事件日志中检索与表明所述用户和所述在线内容交互的所述多个过去用户事件相关的数据,其中与所述多个过去用户事件中的每个相关的数据包括关于与所述过去用户事件相关联的实体的信息,
其中所述特征值引擎被配置以基于关于所述与所述当前用户事件相关联的实体的集合的信息以及关于所述与所述多个过去用户事件相关联的实体的集合的信息来确定针对所述当前用户事件的特征值集合。
19.根据权利要求18所述的系统,其中,与从所述事件日志中检索的所述多个过去用户事件相关的数据包括针对有效的多个过去用户事件的先验概率值、针对无效的多个过去用户事件的先验概率值、以及所述多个过去用户事件的特征值集合,并且其中所述流量质量引擎包括:
概率计算器,用于计算所述多个过去用户事件的特征值集合的概率分布,以及基于所述多个过去用户事件的特征值集合的概率分布来计算所述当前用户事件的特征值集合的元素的概率值;以及
流量分数生成器,被配置以基于所述当前用户事件的特征值集合的元素的概率值、针对所述有效的多个过去用户事件的先验概率值、以及针对所述无效的多个过去用户事件的先验概率值来生成针对所述当前用户事件的流量质量分数。
20.根据权利要求16所述的系统,进一步包括实体流量质量单元,被配置以执行下述操作:
接收涉及具体实体的所述多个当前用户事件的流量质量分数;
计算所述当前用户事件的流量质量分数统计测量;
基于所述统计测量生成针对所述具体实体的实体流量质量分数。
21.根据权利要求16所述的系统,其中,与所述当前用户事件相关联的实体集合包括所述用户身份、所述用户IP地址、所述在线内容的发布者、所述发布与在线内容相关联的广告的广告商、以及所述创造性实体。
22.根据权利要求16所述的系统,进一步地包括事件有效性单元,被配置以基于具有确定阈值的流量质量分数的比较的结果来确定所述当前用户事件是有效的或无效的。
CN201480079297.3A 2014-06-03 2014-06-03 釆用基于事件的流量评分确定流量质量 Pending CN107077455A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2014/079061 WO2015184579A1 (en) 2014-06-03 2014-06-03 Determining traffic quality using event-based traffic scoring

Publications (1)

Publication Number Publication Date
CN107077455A true CN107077455A (zh) 2017-08-18

Family

ID=54765922

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480079297.3A Pending CN107077455A (zh) 2014-06-03 2014-06-03 釆用基于事件的流量评分确定流量质量

Country Status (4)

Country Link
US (1) US10115125B2 (zh)
EP (1) EP3134823A4 (zh)
CN (1) CN107077455A (zh)
WO (1) WO2015184579A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10083459B2 (en) * 2014-02-11 2018-09-25 The Nielsen Company (Us), Llc Methods and apparatus to generate a media rank
WO2015184579A1 (en) * 2014-06-03 2015-12-10 Yahoo! Inc Determining traffic quality using event-based traffic scoring
US10726196B2 (en) * 2017-03-03 2020-07-28 Evolv Technology Solutions, Inc. Autonomous configuration of conversion code to control display and functionality of webpage portions
US20190377984A1 (en) * 2018-06-06 2019-12-12 DataRobot, Inc. Detecting suitability of machine learning models for datasets
US10885450B1 (en) * 2019-08-14 2021-01-05 Capital One Services, Llc Automatically detecting invalid events in a distributed computing environment
US11841919B2 (en) * 2022-01-21 2023-12-12 Content Square SAS Frustration scores for flows, page views, webpages, sessions, and websites

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1658572A (zh) * 2004-02-13 2005-08-24 微软公司 用于预防兜售信息的智能隔离
CN1761961A (zh) * 2003-03-19 2006-04-19 Nhn株式会社 在因特网搜索引擎上检测无效点击的方法和设备
WO2008134184A1 (en) * 2007-04-25 2008-11-06 Yahoo! Inc. System for scoring click traffic
CN102136115A (zh) * 2010-01-27 2011-07-27 马林 网络广告防欺诈方法与系统
US20120005018A1 (en) * 2010-07-02 2012-01-05 Vijay Krishna Narayanan Large-Scale User Modeling Experiments Using Real-Time Traffic

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1654692A1 (en) * 2003-07-11 2006-05-10 Computer Associates Think, Inc. Method and apparatus for automated feature selection
WO2007139857A2 (en) * 2006-05-24 2007-12-06 Archetype Media, Inc. Storing data related to social publishers and associating the data with electronic brand data
US20080091524A1 (en) * 2006-10-13 2008-04-17 Yahoo! Inc. System and method for advertisement price adjustment utilizing traffic quality data
US20080154717A1 (en) * 2006-12-22 2008-06-26 Yahoo! Inc. Publisher scoring
US7756845B2 (en) * 2006-12-28 2010-07-13 Yahoo! Inc. System and method for learning a weighted index to categorize objects
US7805331B2 (en) * 2007-11-20 2010-09-28 Yahoo! Inc. Online advertiser keyword valuation to decide whether to acquire the advertiser
US8650144B2 (en) * 2008-02-14 2014-02-11 Yahoo! Inc. Apparatus and methods for lossless compression of numerical attributes in rule based systems
US8918328B2 (en) * 2008-04-18 2014-12-23 Yahoo! Inc. Ranking using word overlap and correlation features
US8239393B1 (en) * 2008-10-09 2012-08-07 SuperMedia LLC Distribution for online listings
US8656284B2 (en) * 2009-04-17 2014-02-18 Empirix Inc. Method for determining a quality of user experience while performing activities in IP networks
US8838819B2 (en) * 2009-04-17 2014-09-16 Empirix Inc. Method for embedding meta-commands in normal network packets
US10326848B2 (en) * 2009-04-17 2019-06-18 Empirix Inc. Method for modeling user behavior in IP networks
US20100299303A1 (en) * 2009-05-21 2010-11-25 Yahoo! Inc. Automatically Ranking Multimedia Objects Identified in Response to Search Queries
US20100312624A1 (en) * 2009-06-04 2010-12-09 Microsoft Corporation Item advertisement profile
US8280829B2 (en) * 2009-07-16 2012-10-02 Yahoo! Inc. Efficient algorithm for pairwise preference learning
US9110568B2 (en) * 2009-10-13 2015-08-18 Google Inc. Browser tab management
US9449282B2 (en) * 2010-07-01 2016-09-20 Match.Com, L.L.C. System for determining and optimizing for relevance in match-making systems
US10127522B2 (en) * 2011-07-14 2018-11-13 Excalibur Ip, Llc Automatic profiling of social media users
US9355095B2 (en) * 2011-12-30 2016-05-31 Microsoft Technology Licensing, Llc Click noise characterization model
US20130297777A1 (en) * 2012-05-02 2013-11-07 Google Inc. Server-side configuration driven sessionization to provide consistent business logic
US20160071496A1 (en) * 2012-10-11 2016-03-10 Google Inc. Aligning content items with map features
US9027127B1 (en) * 2012-12-04 2015-05-05 Google Inc. Methods for detecting machine-generated attacks based on the IP address size
US20150039541A1 (en) * 2013-07-31 2015-02-05 Kadenze, Inc. Feature Extraction and Machine Learning for Evaluation of Audio-Type, Media-Rich Coursework
US20150088644A1 (en) * 2013-09-23 2015-03-26 Facebook, Inc., a Delaware corporation Predicting User Interactions With Objects Associated With Advertisements On An Online System
WO2015184579A1 (en) * 2014-06-03 2015-12-10 Yahoo! Inc Determining traffic quality using event-based traffic scoring
US10163130B2 (en) * 2014-11-24 2018-12-25 Amobee, Inc. Methods and apparatus for identifying a cookie-less user

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1761961A (zh) * 2003-03-19 2006-04-19 Nhn株式会社 在因特网搜索引擎上检测无效点击的方法和设备
CN1658572A (zh) * 2004-02-13 2005-08-24 微软公司 用于预防兜售信息的智能隔离
WO2008134184A1 (en) * 2007-04-25 2008-11-06 Yahoo! Inc. System for scoring click traffic
CN102136115A (zh) * 2010-01-27 2011-07-27 马林 网络广告防欺诈方法与系统
US20120005018A1 (en) * 2010-07-02 2012-01-05 Vijay Krishna Narayanan Large-Scale User Modeling Experiments Using Real-Time Traffic

Also Published As

Publication number Publication date
US20160267525A1 (en) 2016-09-15
EP3134823A1 (en) 2017-03-01
EP3134823A4 (en) 2017-10-25
WO2015184579A1 (en) 2015-12-10
US10115125B2 (en) 2018-10-30

Similar Documents

Publication Publication Date Title
CN107346496B (zh) 目标用户定向方法及装置
Park et al. Customer entrepreneurship on digital platforms: Challenges and solutions for platform business models
CN102737334B (zh) 微细分定义系统
Jiang et al. Impacts of knowledge on online brand success: an agent-based model for online market share enhancement
US20160210657A1 (en) Real-time marketing campaign stimuli selection based on user response predictions
US10262336B2 (en) Non-converting publisher attribution weighting and analytics server and method
CN102722833B (zh) 用于在线广告的个人数据公开和使用的用户控制策略的持久性元数据
CN106997549A (zh) 一种广告信息的推送方法及系统
US11017430B2 (en) Delivering advertisements based on user sentiment and learned behavior
CN107077455A (zh) 釆用基于事件的流量评分确定流量质量
CN110348894B (zh) 资源位广告展示的方法、装置及电子设备
CN103503012A (zh) 在社交网络上提供广告
TW200849131A (en) A system and device for social shopping on-line
CN105283841B (zh) 应用定制的对象再利用和再循环
US10713692B2 (en) Systems and methods for user propensity classification and online auction design
CN110402570A (zh) 信息处理方法和系统、服务器、终端、计算机存储介质
US20160350815A1 (en) Representing entities relationships in online advertising
US11734728B2 (en) Method and apparatus for providing web advertisements to users
US20150039424A1 (en) System and method for social display advertisements
CN108777701A (zh) 一种确定信息受众的方法及装置
US20140316872A1 (en) Systems and methods for managing endorsements
CN109299356A (zh) 基于大数据的活动推荐方法、装置、电子设备及存储介质
CN110163661A (zh) 营销信息推广方法、装置、电子设备及计算机可读介质
Hoffmann et al. The market of disinformation
US20170308806A1 (en) Using machine learning techniques to determine propensities of entities identified in a social graph

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210325

Address after: texas

Applicant after: R2 Solutions Ltd.

Address before: California, USA

Applicant before: Aix Kelly IP Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170818