CN107077498B

CN107077498B - 在在线广告中表示实体关系

Info

Publication number: CN107077498B
Application number: CN201580057657.4A
Authority: CN
Inventors: 安格斯·献恩·邱; 许海洋; 林湛刚
Original assignee: Aix Kelly Ip Co ltd
Current assignee: R2 Solutions Ltd
Priority date: 2015-05-29
Filing date: 2015-05-29
Publication date: 2021-01-08
Anticipated expiration: 2035-05-29
Also published as: EP3224747A1; CN107077498A; US20160350815A1; EP3224747A4; WO2016191909A1

Abstract

本教导包括方法、系统、和计算机可读介质，其涉及提供在与在线内容交互相关的实体之间的关系表示。所公开的技术可以包括接收与第一实体集和第二实体集之间的在线内容交互相关的数据，以及基于所接收的数据针对该第一实体集中的每一个第一实体确定第一交互频率值的集合，每一个第一交互频率值对应于第二实体集中的一个第二实体，并且对于该第二实体集中的每一个第二实体确定第二交互频率值。此外，对于该第一实体集中的每一个第一实体，可以基于第二交互频率值和对于该第一实体的第一交互频率值的集合来确定关系值的集合，每一个关系值指示该第一实体和一个第二实体之间的交互关系。

Description

在在线广告中表示实体关系

技术领域

本教导涉及检测在线或基于互联网的活动和交易中的欺诈，尤其涉及，提供在参与在线内容交互的实体之间的关系表示，以及当在线内容发布者或提供者相互串通以欺诈性地向他们的网站或web门户充入web流量时，检测联合欺诈。

背景技术

在线广告在互联网中扮演重要角色。在市场中大体上有三种角色：发布者、广告商、和执行者。例如Google、Microsoft以及Yahoo！之类的执行者提供针对发布者和广告商的平台或交易。然而，在商业系统(ecosystem)中存在欺诈性的角色。发布者具有充入流量来向广告商收取更多费用的强烈动机。一些广告商还可能实施欺诈以耗尽竞争者的资金。为了保护合法的发布者和广告商，执行者需要承担对抗欺诈性流量的责任，否则商业系统就会被破坏并且合法的角色将离开。许多当前主要的执行者具有反欺诈系统，该反欺诈系统使用基于制度的过滤器或机器学习过滤器。

为了避免被检测，欺诈者可能稀释他们的流量或者甚至集合起来形成联合。在联合欺诈中，欺诈者共享它们的资源(例如IP地址)并且串通以从每一个IP地址(被认为是独特的用户或访问者)向彼此的在线内容(例如，网页、移动应用等等)充入流量。由于流量是被分散的，因此通过查看单独的访问者或发布者将难以检测这种类型的欺诈。例如，每一个在线内容发布者拥有独特的IP地址，并且因此，如果流量只源于他们自己的IP地址，那么检测欺诈性的用户或访问者流量可能是容易的。然而，当发布者(或广告商或者提供在线内容的其他类似实体)共享他们的IP地址时，它们可以串通对IP地址使用这种公共池以欺诈地充入彼此的流量。事实上，到每个发布者的在线门户或应用的流量被稀释，并且任何一个IP地址或访问者的行为看上去是正常的，这使得对这种欺诈的检测更加困难。

发明内容

本文所公开的教导涉及用于提供参与在线内容交互的实体之间的关系的表示和检测在在线或基于互联网的活动和交易中的联合欺诈的方法、系统、和程序，其中某些实体(例如，在线内容发布者、提供者、或广告商)串通以向彼此的内容门户或应用欺诈地充入web流量。

在一个示例中，在具有至少一个处理器、存储设备、和能够连接到网络的通信平台上的机器上所实现的方法被公开，该方法提供涉及在线内容交互的实体之间的关系的表示。该方法可以包括接收与第一实体集和第二实体集之间的在线内容交互相关的数据，并且基于所接收的数据：(a)针对该第一实体集中的每一个第一实体确定第一交互频率值的集合，每一个第一交互频率值对应于该第二实体集中的一个第二实体；以及(b)针对该第二实体集中的每一个第二实体确定第二交互频率值。此外，对于该第一实体集中的每一个第一实体，可以基于第二交互频率值和针对该第一实体的第一交互频率值的集合，来确定关系值的集合。每个关系值可以指示该第一实体与第二实体集中的一个第二实体之间的交互关系。

该第一实体集可以包括在线内容的访问者或用户，并且该第二实体集可以包括在线内容发布者、在线内容提供者、以及在线广告商中的一个或多个。数据可以包括每一个第一实体与由每一个第二实体所提供的在线内容进行交互的实例的数量。

在另一个示例中，用于提供与在线内容交互相关的实体之间的关系的表示的系统被公开。该系统可以包括通信平台、第一频率单元、第二频率单元、以及关系单元。通信平台可以被配置来接收与第一实体集和第二实体集之间的在线内容交互相关的数据。第一频率单元可以被配置来基于所接收的数据，针对该第一实体集中的每一个第一实体确定第一交互频率值的集合，每一个第一交互频率值对应于该第二实体集中的每一个第二实体。第二频率单元可以被配置来基于所接收的数据，针对该第二实体集中的每一个第二实体确定第二交互频率值。并且，该关系单元可以被配置来基于第二交互频率值和针对第一实体集中的每个第一实体的第一交互频率值，对于该第一实体确定关系值的集合。每个关系值可以指示那个第一实体和第二实体集中的一个第二实体之间的交互关系。

其他概念涉及在检测在线联合欺诈方面实现本教导的软件。根据这个概念，软件产品包括至少一个机器可读非暂态介质和由该介质所承载的信息。由该介质所承载的信息可以是：可执行的程序代码数据、与可执行的程序代码相关联的参数、和/或与用户相关的信息、与社会群体相关的信息、请求、或内容等等。

在一个示例中，机器可读非暂态有形介质具有记录在其上的用来提供在与在线内容交互相关的实体之间的关系的表示的数据，其中当信息被机器读取时使得机器执行多个操作。这种操作可以包括接收与在第一实体集和第二实体集之间的在线内容交互相关的数据，并且基于所接收的数据进行以下操作：(a)针对该第一实体集中的每一个第一实体确定第一交互频率值的集合，每一个第一交互频率值对应该第二实体集中的一个第二实体；以及(b)针对该第二实体集中的每一个第二实体确定第二交互频率值。此外，针对该第一实体集中的每一个第一实体，可以基于第二交互频率值和针对那个第一实体的第一交互频率值的集合来确定关系值的集合。每一个关系值可以指示在那个第一实体和第二实体集中的一个第二实体之间的交互关系。

附加的优点和新的特征将在下文的说明中部分地列出，并且根据下文和附图的审查，将对于本领域技术人员在一定程度上是易于理解的或是可以通过示例的生产和操作被习得的。通过在下文将讨论的详细示例中列出的方法论、指导、以及组合的各种方面的实施或使用，可以认识和获得本教导的优点。

附图说明

本文所描述的方法、系统、和/或程序还根据示例的实施例被描述。这些示例的实施例参照附图被详细描述。这些实施例是非限制的示例的实施例，其中贯穿附图的一些视图，相似的参考标号代表类似的结构，并且其中：

图1示出了根据本公开的各种实施例的，在提供在线内容的实体和与在线内容进行交互的实体之间通常的在线交互的示例；

图2(a)、图2(b)示出了根据本公开的各种实施例的系统的示例，在该系统中参与在线内容交互的实体之间的关系的表示被生成，并且在在线或基于互联网的活动和交易中的联合欺诈被检测；

图3示出了根据本公开的各种实施例的活动和行为处理引擎的示例；

图4是根据本公开的各种实施例的在活动和行为处理引擎处操作的示例过程的流程图；

图5示出了根据本公开的各种实施例的流量欺诈检测引擎的示例；

图6是根据本公开的各种实施例的针对流量欺诈检测的示例过程的流程图；

图7示出了根据本公开的各种实施例的矢量表示生成单元的示例；

图8是根据本公开的各种实施例的针对不同实体之间的关系的矢量表示的生成的示例处理的流程图；

图9示出了根据本公开的各种实施例的群集度量确定单元的示例；

图10是根据本公开的各种实施例的用于确定群集度量的示例过程的流程图；

图11示出了根据本公开的各种实施例的欺诈性群集检测单元的示例；

图12是根据本公开的各种实施例的用于检测欺诈群集的示例过程的流程图；

图13描绘了可以被用来实现结合本公开的教导的专用系统的移动设备的架构；以及

图14描绘了可以被用来实现结合本公开的教导的专用系统的计算机的架构。

具体实施方式

在下列的详细描述中，大量具体的细节以示例的方式被列出，从而提供对于相关教导的透彻的理解。然而，对于本领域技术人员应当显然的是，本教导可以无需这些细节而实现。在其他实例中，众所周知的方法、处理、组件、和/或电路已经无需细节地以较高的层次被描述，从而避免对于本教导的方面的不必要的模糊。

本公开总体上涉及关于提供在参与在线内容交互的实体之间的关系的表示和检测在在线或基于互联网活动和交易中特定的实体(例如，在线内容发布者、提供者、广告商、创造者等等)串通向彼此的内容门户或应用欺诈性地充入web流量的联合欺诈的系统、方法、以及其他实现方式。在一些情境中，由于在线流量是分散的，通过分析参与在线交互的单个实体(例如，访问者或发布者)的活动以检测这种欺诈可能是困难的。

根据本文所描述的各种实施例，为解决在线联合欺诈的问题，在参与在线内容的交互(例如，在网页上、在移送应用中等进行网页浏览或点击、广告点击、广告曝光、和/或广告转换)的实体之间的关系和这些实体的流量质量两者可同时被考虑。相应地，本公开的各种实施例与用于生成或提供参与在线内容交互的实体(例如，访问者和发布者)之间的关系的表示(其中该关系的表示可能不由某个或多个实体所支配)有关的技术和系统。此外，本公开的各种实施例关于基于访问者的关系的表示，将访问者分组到群集中，并且在群集层级而非个体地分析访问者，从而确定这些访问者或他们的群集是否是欺诈性的。对访问者群集的这种分析可以基于群集层度量而执行，例如，访问者的流量行为特征的影响力(leverage)统计。

图1示出了阐述在提供或呈现在线内容的实体(例如，发布者130)和与在线内容交互或以其他方式消费在线内容的实体(例如，访问者110)之间的通常的在线交互的宽泛的概述图100。如示出，可以存在不同的访问者110的集合(例如，访问者集1、访问者集2)，可以通过他们相应的电子联网设备，与由一个或多个发布者130(例如，在网站、网页、移动应用等等处)提供的在线内容进行交互。为了便于说明，访问者集1可以表示与发布者130串通的访问者，他们倾向于欺诈性地充入访问者流量到彼此的在线内容，并且访问者集2可以表示与由发布者130所提供的在线内容相交互的一般的真城的用户或访问者。在一些实施例中，发布者130的每一个可以被提供或分配某些独特的IP地址，并且发布者130可以合用(pool)或共享它们的互联网协议(IP)地址，其中，例如访问者集1中的访问者可以被分配那些共享的IP地址，他们用这些IP地址访问由发布者130提供的在线内容。相应地，当发布者130串通和共享他们的IP地址时，他们能够向他们的内容稀释或分散流量的源和行为，而不是仅仅从已知的IP地址或访问者集合获得流量(这可能更容易被检测到)。

图2a、2b是根据本公开的一个或多个实施例的不同系统配置的高层级描述，其中，可以生成在参与在线内容的交互的实体之间的关系的表示，并且可以检测在在线的或基于互联网的活动和交易中的联合欺诈。如图2(a)所示，示例的系统200可以包括用户或访问者110、网络120、一个或多个发布者门户或发布者130、一个或多个广告商140、活动或行为日志/数据库150、数据源160(包括数据源1 160-a、数据源2 160-b、...、数据源n 160-c)、流量欺诈检测引擎170、活动和行为处理引擎175、以及系统操作者/管理员180。

网络120可以是单个的网络或不同网络的组合。例如，网络可以是局域网(LAN)、广域网(WAN)、公共网络、个人网络、专有网络、公共电话交换网络(PSTN)、互联网、无线网络(例如，个人局域网、蓝牙网络、近场通信网络等等)、蜂窝网络(例如，CDMA网络、LTE网络、GSM/GPRS网络等等)、虚拟网络、或以上各项的任何组合。网络还可以包括各种网络接入点，例如有线的或无线的接入点(例如基站或互联网交换点120-a、...、120-b)，数据源可以经过这些接入点连接到网络，从而通过该网络传输信息。在一个实施例中，网络120可以是在线广告网络或广告网络，该网络将广告商140连接到希望托管(host)广告的发布者130或网站/移动应用。广告网络的功能是集成来自发布者的广告空间供应，并且将它和广告商的要求相匹配。广告网络可以是电视广告网络、印刷广告网络、在线(互联网)广告网络、或移动广告网络。

用户110(本文中可替代地指的是访问者110)可以是意在通过网络120来访问内容并且与内容交互的实体(例如人类)，该内容由发布者130在他们的(一个或多个)网站或(一个或多个)移动应用处提供。用户110可以利用能够连接到网络120并且与系统200的其他组件进行通信的不同类型的设备，例如，手持设备(110-a)、机动车内置设备(110-b)、膝上型设备(110-c)、或远程桌面连接(110-d)。在一个实施例中，通过无线技术以及在用户可穿戴设备(例如，眼镜、手表等等)中所实现的相关操作系统和接口，(一个或多个)用户110可以被连接到网络并且能够访问(由发布者130所提供的)在线内容和与在线内容进行交互。用户(例如110-1)可以经过网络120向发布者130发送对于在线内容的请求，并且经过网络120接收内容以及(由广告商140所提供的)一个或多个广告。当在用户设备的用户接口(例如，显示器)处被提供时，用户110-1可以点击或以其他方式选中(一个或多个)广告来浏览和/或购买被广告的(一个或多个)产品或(一个或多个)服务。在本公开的上下文中，这种广告呈现/曝光、广告点击、广告转换、以与在线内容的其他用户交互可以被视作“在线事件”或“在线活动”。

发布者130可以对应实体，其无论是具有发布业务的个人、公司、或组织(例如电视台、报商、网页拥有者、在线服务提供者、或游戏服务者)。例如，关于在线或移动广告网络，发布者130可以是例如USPTO.gov的组织、例如CNN.com和Yahoo.com的内容提供者，或例如Twitter或博客的内容供给(content-feed)源。在一个实施例中，发布者130包括通过(例如安装在智能手机、平板设备等上的)移动应用开发、支持、和/或提供在线内容的实体。在一个示例中，被发送到用户110的内容可以基于由内容源160提供的或从内容源160接收的数据，由发布者130生成或格式化。内容源可以对应于内容最初被生成和/或储存在其中的实体。例如，小说可以最初被印刷在杂志上，但是之后在线被发表在由发布者130(例如，发布者门户130-1、130-2)控制的网站或门户上。在示例的联网环境100中的内容源160包括多个内容源160-1、160-2、...、160-3。

广告商140通常可以对应无论是正在或计划涉足(或以其他的方式参与)广告业务的个人、公司、还是组织的实体。这样，广告商140可以是提供(一个或多个)产品和/或(一个或多个)服务的实体，并且它在由发布者130提供的平台(例如，网站、移动应用等等)上负责它自己的(一个或多个)产品和/或服务的广告处理。例如，广告商140可以包括例如GeneralMotors、Best Buy、或Disney之类的公司。然而在一些情境中，广告商140可以是仅仅负责针对由另一个实体所提供的(一个或多个)产品和/或(一个或多个)服务的广告处理的实体。

广告商140可以是被安排来向(一个或多个)发布者130提供在线广告，使得这些广告在用户设备处随着其他的在线内容被呈现给用户110的实体。广告商140可以提供流内容、静态内容、和赞助内容。广告内容可以被放置在内容页面上或应用(例如，移动应用)的任何位置，并且可以被有策略地放置在内容流的周围或内容流中作为内容流的一部分以及独立广告两者来呈现。在一些实施中，广告140可以包括或可以被配置为广告交换引擎，该广告交换引擎用作用于购买由发布者(例如发布者130)实现的一个或多个广告机会的平台。在接收和响应来自发布者的投标请求之后，广告交换引擎可以在与该引擎相关联的多个广告商中运行内部竞标，并且向发布者递交合适的价标。

活动和行为日志/数据库150储存和提供与当前和过去的用户事件(即，相对于当前用户事件的发生时间的先前所发生的事件)相关的数据，该活动和行为日志/数据库150可以是集中式的或分布式的。用户事件数据(本文中可替代地指的是访问者交互数据或访问者-发布者交互数据)可以包括关于与每个相应的用户事件相关联的实体(例如，(一个或多个)用户、(一个或多个)发布者、(一个或多个)广告商、(一个或多个)创造者等等)的信息以及其他的关于事件的信息。在一些实施例中，在每个用户事件由引擎175处理之后，用户事件数据可以被发送到数据库150以被添加，因此更新过去的用户事件数据，该用户事件数据包括但不局限于行为特征、与(一个或多个)特征值的集合相关的概率值、每个访问者曝光/点击数据、(一个或多个)流量质量分数等等的(一个或多个)集合。

内容源160可以包括多个内容源160-a、160-b、...、160-c。内容源可以对应于与发布者(例如，发布者130)相对应的网页拥有者，无论是个人、公司、或是组织(例如，USPTO.gov)的实体，例如CNN.gov和Yahoo.com的内容提供者、或例如Twitter或博客的内容供给源。内容源160可是在线内容的任何源(例如，在线新闻、发行的文章、博客、在线小报、杂志、音频内容、图像内容、以及视频内容)。它可以是来自内容提供者(例如，Yahoo！金融、Yahoo！体育、CNN、和ESPN)的内容。它可以是多媒体内容、或文本、或包括网站内容、社会媒体内容的任何其他形式的内容(例如Facebook、Twitter、Reddit等等)，或任何其他丰富内容的提供者。它可以是来自提供者(例如AP和Reuters)的经许可的内容。它还可以是从互联网上的各种源获取或索引的内容。内容源160向发布者130和/或系统100的其他部分提供大批内容。

如将在下列详细描述的一样，流量欺诈检测引擎170可以被配置来生成或提供在参在线内容交互的实体(例如，访问者110和发布者130)之间的关系的表示(其中，关系的表示可能不由特定的一个或多个实体支配)。此外，流量欺诈检测引擎170可以被配置来基于访问者110的关系表示，将访问者110分组到群集中，并且在群集层级而不是个体地分析访问者110，从而确定访问者110或它们的群集是否是欺诈性的。流量欺诈检测引擎170可以基于群集层级的度量(例如访问者110的流量行为特征的影响统计)执行这种对访问者群集的分析，该群集层级的度量由活动和行为处理引擎175提供并且储存在日志150中。

活动和行为处理引擎175可以被配置为作为发布者130和广告商140的后端系统而操作以接收、处理和储存关于如下用户事件(例如，广告曝光、广告点击、广告转换等等)的信息，所述用户事件与用户和被在用户110的设备处提供给用户110的包括广告在内的在线内容进行交互相关。例如，如图3所示，在用户110执行与被呈现的在线内容的交互(例如，广告点击)之后，活动和行为处理引擎175可以从(提供内容和广告的)相关的发布者130和/或广告商140接收交互或事件数据305。

访问者-发布者交互或事件数据305可以包括，但不局限于事件的类型、事件的时间、关于与用户事件相关的内容和广告的文本信息(例如，无论它是与体育、新闻、旅游、零售购物等等相关)、(例如，来自数据库315的)用户信息(例如用户的IP地址、名称、年龄、性别、位置、其他用户标识信息)，(例如，来自数据库320的)与具体事件相关的(一个或多个)发布者130的标识信息，与具体事件相关的(一个或多个)广告商140的标识信息，以及与具体事件相关的其他实体/参与者(例如，(一个或多个)广告创造者)的标识信息。当发生针对每个用户110、每个发布者130和每个广告商140的每个事件时，上述关于事件的信息可以被提供给引擎175。在一些其他的情境中，仅仅针对用户110、发布者130、和/或广告商140的特定集合，由引擎175处理并且记录这些信息。在一些实施例中，引擎175可以包括数据库(未被示出)用来以具体的(一个或多个)类别和(一个或多个)格式储存与用户110、发布者130、广告商140以及系统100的其他实体的相关的信息。此外，引擎175可以被配置来(例如当发布者130、广告商140等等加入或离开系统200时)用关于与系统200相关的实体的最新信息(周期性地，或按需)来更新它的数据库。

仍旧参考图3，活动和行为处理引擎175可以包括曝光/点击日志处理单元325和行为特征引擎330。曝光/点击日志处理单元325可以被配置用来处理与多个访问者-发布者事件或交互相关的被输入的交互数据305，以及确定每个访问者的曝光/点击数据328，即，每个唯一的用户或访问者110浏览或点击由每个唯一的发布者130提供的内容的次数。例如，数据328可以包括，对于每个访问者v_i的值c_i，j，即，访问者v_i已浏览或点击由发布者p_j提供的内容和/或广告的次数。活动和行为处理引擎175可以发送每个访问者曝光/点击数据328用于在数据库150处存储。

此外，包括行为特征单元332-1、332-2、...、332-p的行为特征引擎330可以被配置用来处理所输入的交互数据305以确定指示访问者关于它与在线内容进行交互的行为的各种不同的行为特征。在一些实施例中，为了生成行为特征，行为特征引擎330可以采用生成在美国专利申请No.14/401,601中所描述的特征集或流量散度特征的技术和操作，上述申请通过引用整体被结合于此。行为特征单元332-1可以生成行为特征1，行为特征1指示针对具体的访问者110的平均发布者曝光/点击计数，可以由下列公式计算行为特征1：

相似地，由行为特征单元2、...、p生成的其他行为特征2、...、p可以指示针对特定访问者110关于某些具体实体的平均的曝光/点击量，并且该其他行为特征2、...、p基于与在上文的公式(1)中的相似的关系而计算。例如，针对具体的访问者110，行为特征2、...、p可以包括平均广告商曝光/点击量、平均创造者曝光/点击量、平均用户-代理曝光/点击量、平均cookie曝光/点击量、平均章节曝光/点击量、和/或其他在线的与流量相关的行为特征。一旦生成，可以由活动和行为处理引擎175发送针对每个唯一的访问者或用户110的行为特征1-p，用于在数据库150处进行储存。

图4是根据本公开的实施例的在活动和行为处理引擎175处操作的示例过程400的流程图。在405处，在用户110执行与在线内容的交互(例如，广告点击)之后，交互或事件数据(例如，数据305)可以在活动和行为处理引擎175处从(提供了内容和广告的)相关的发布者130和/或广告商140被接收。在410处，可以在活动和行为处理引擎175处接收来自例如数据库315、320或直接来自访问者和发布者的与参与在线交互的访问者和发布者(或其他实体)相关的简档(profile)和标识数据。在一些实施例中，这种简档和标识数据可以是(在操作405处接收的)数据305的一部分。在415处，所接收的交互/事件数据和简档/标识数据被处理(例如由曝光/点击日志处理单元325处理)来确定每个访问者曝光/点击数据328，即，每个唯一的用户或访问者110浏览或点击由每个唯一的发布者130提供的内容的次数。在420处，所接收的交互/事件数据和简档/标识数据(例如，基于公式(1))被处理(例如，由包括行为特征单元332-1，332-2，...，332-p的行为特征引擎330处理)来确定行为特征1-p。在425处，每个访问者曝光/点击数据328和行为特征1-p可以由活动和行为处理引擎175发送或传输到数据库150以储存本文的那些数据。

参考回图2(a)，除了110处的用户之外，不同类型的用户(例如180)(可以是系统运行者或管理者)还可以能够与系统200的不同组件(例如，流量欺诈检测引擎170等等)交互，用于不同的管理工作(例如管理活动和行为日志150、活动和行为处理引擎175等等)。在一些实施例中，用户180可以被分类以使得对于更多的可操作事件具有比用户110更高的优先权来管理活动和行为日志150和/或活动和行为处理引擎175。例如，用户180可以被配置来能够更新储存在活动和行为日志150中的索引方案或数据格式、使用引擎175收集的数据格式、或测试流量欺诈检测引擎170。在一些实施例中，流量欺诈检测引擎170以及相关的活动和行为日志150可以是第三方服务提供者的一部分，使得发布者130、广告商140、以及用户180可以是流量欺诈检测引擎170的客户。在这个情境中，用户180可以配置不同的数据或过程使得对于不同的客户的服务能够基于不同的数据或过程可操作的参数来提供个性化的服务。

图2(b)呈现与在图2(a)中示出的相似的系统配置，除了广告商140现在被配置为发布者130的后台子系统。在一些实施例中(未示出)，存在其他的不同的系统配置，在该配置中管理者用户180可以通过内部网或专有网络连接，单独地管理流量欺诈检测引擎170和日志150。需要注意的是如图2(a)、2(b)示出的不同的配置还可以以适用于具体的应用方案的任何方式被混合。

参考图5，图5是根据本公开的实施例的示例流量欺诈检测引擎170的高层级描述。流量欺诈检测引擎170可以被配置来生成或提供参与在线内容交互的实体(例如，访问者110和发布者130)之间的关系的表示。此外，流量欺诈检测引擎170可以被配置来基于群集层度量来确定访问者110或它们的群集是否是欺诈性的。为了实现这些和其他的功能，流量欺诈检测引擎170可以包括矢量表示生成单元505、群集生成单元510、群集度量确定单元515、欺诈性群集检测单元520、以及欺诈报告单元525。

在一些实施例中，矢量表示生成单元505被配置用来对每个访问者110生成或提供关系表示的矢量或集合，其中关系表示的集合包括指示访问者和一个或多个发布者130的在线交互(例如，曝光、浏览、点击等等)的程度的值。通常，在第i个访问者v_i和第j个发布者p_j之间的交互关系由c_i，j表示，即访问者v_i浏览或点击由发布者p_j发布的内容和/或广告的次数，并且访问者v_i和新系统中的所有发布者之间的交互关系由下列矢量表示：

v_i＝(c_i，1c_i，2，…，c_i，m)，i＝1，2，…n (2)

其中n和m相应地是访问者(例如，访问者或用户110)以及发布者(例如，发布者130)的总数。

然而，使用关于发布者的原始访问或点击数量作为特征来确定具体的访问者是否是欺诈性的，这可能是有缺陷的。例如，发布者(例如，www.yahoo.com)可以很受欢迎以至于大多数的访问者都有大量的流量，并且因此较大的c_i，j值对应于受欢迎的发布者。这样，由于发布者维度上的c_i，j值很大，并且多个访问者可能很难与彼此区分开，因此多个访问者的交互关系矢量可以由特定的发布者主导。相应地，为了解决这种主导地位的发布者的缺点，本公开建议考虑针对发布者考虑“权重”的技术。该技术基于发布者频率和相对的(inverse)访问者频率提供访问者的表示。在这方面，根据本公开的实施例，图7示出了示例的矢量表示生成单元505的高层级的描绘。如示出，矢量表示生成单元505包括发布者频率确定单元705、相对的访问者频率确定单元710、以及访问者关系表示单元715。

矢量表示生成单元505(例如，通过流量欺诈检测引擎170的通信平台)从数据库150接收针对每个访问者110的每个访问者曝光/点击数据328纳入考虑，并且该数据被提供给发布者频率确定单元705和相对的访问者频率确定单元710用于进一步处理。发布者频率确定单元705(或“第一频率单元”)可以被配置来基于下列公式针对每个访问者v_i确定对应发布者p_j的发布者频率值pf_ij

其中s_i是由访问者v_i生成的总流量：

相对的访问者频率确定单元710(或“第二频率单元”)可以被配置来基于下列公式，确定针对每个发布者p_j的相对的访问者频率值ivf_j：

ivf_j＝log(n/t_j) (5)

其中，t_j是访问或接入发布者pi的不同的访问者的数量，并且根据下列内容被计算：

其中δ(x)是指示函数，如果X是真，则将x映射为1，否则映射为0。针对发布者p_j的相反的访问频率值ivf_j在访问者和发布者之间的表示关系的情境中可以被视为针对发布者的“权重”。

发布者频率确定单元705和相对的访问者频率确定单元710向访问者关系表示单元715提供发布者频率值和相对的访问者频率值。访问者关系表示单元715可以被配置来基于针对每个访问者v_i的发布者频率值的集合和针对发布者p_j的相对的访问者频率值，来针对该访问者v_i确定关系值w_ij的集合。每个关系值w_ij指示访问者v_i和发布者p_j之间的加权交互关系值，并且由访问者关系表示单元715基于下列公式计算：

w_ij＝pf_ij×ivf_j (7)

访问者关系表示单元715还可以在如下所示的矢量形式中，针对每个访问者v_j设置关系值w_ij：

w_i＝(w_i1，w_i2，…，w_im) (8)

图8是根据本公开的实施例，在矢量表示生成单元505处操作的示例过程800的流程图。在805处，(例如，从数据库150)接收每个访问者曝光/点击数据328。在810处，例如，使用发布者频率确定单元705、基于公式(3)、(4)，针对每个访问者v_i，确定对应于发布者p_j的发布者频率值pf_ij。在815处，例如，由相对的访问者频率确定单元710、基于公式(5)、(6)，针对每个发布者p_j，确定相对的访问者频率值ivf_j。在820处，发布者频率和相对的访问者频率值可例如由访问者关系表示单元715基于公式(7)来处理，以基于每个访问者v_i的发布者频率值的集合和针对发布者p_j的相对的访问者频率值来确定对于该访问者v_i的关系值w_ij的集合。以及，在825处，针对每个访问者v_i的关系值w_ij可被采用如公式(8)所示出的矢量形式来安排。

参考回图5，群集生成单元510可以被配置为基于或使用来自矢量表示生成单元505的访问者或用户110的关系值矢量，来对访问者或用户110进行聚类或分类。在一些实施例中，群集生成单元510可以基于众所周知的聚类算法(例如，基于分级聚类的算法、基于重心的聚类(例如，K均值聚类)的算法、分布式聚类的算法、基于密度聚类的算法、和/或其他的聚类技术)来对访问者110进行聚类。例如，群集生成单元510采用K均值聚类；总共的访问者群集K的数量被预先配置或预先设置为固定的数字(例如972)，每个群集具有平均50个访问者。

群集度量确定单元515可以被配置为例如基于群集中的每个访问者的行为特征，针对每个群集来确定代表群集行为的特定的度量。在这个方面，图9示出了根据本公开的实施例的示例群集度量确定单元515的高层级描绘。如所示，群集度量确定单元515包括行为统计确定单元905、行为统计标准化单元910、以及群集层级统计确定单元915。

群集度量确定单元515(例如通过流量欺诈检测引擎170的通信平台)接收来自数据库150的每个访问者110的行为特征1-p和来自群集生成单元510的访问者群集。在一些实施例中，行为统计确定单元905被配置来针对每个群集k确定在该群集k中的所有访问者的行为特征1-p中的每一个行为特征的统计(例如，均值和方差)。例如，使得K是群集的总数，n_k是在第k个群集中的访问者的数量，以及x_iq(k)是在群集k中第i个访问者的第q个行为特征。之后，行为统计确定单元905被配置来确定在群集k中的第q个行为特征的均值，其中在一些实施例中，该均值代表群集是欺诈性群集的可疑度的等级，并且基于下列公式计算：

此外，行为统计确定单元905被配置来确定在群集k中的第q个行为特征的方差或标准偏差值，其在一些实施例中代表在该群集的访问者中的相似度的等级，并且基于下列公式计算：

行为统计标准化单元910可以被配置来标准化由上述所讨论的行为统计确定单元905确定的行为统计。例如，行为统计标准化单元910可以分别确定在所有的群集K中的第q个特征的平均值的平均值和标准偏差：

以及

相似地，行为统计标准化单元910可以分别确定在所有的群集K中第q个特征的标准偏差(或方差)值的平均值和标准偏差(或方差)：

以及

行为统计标准化单元910可以按照如下来计算在每一个群集K中第q个特征的标准化平均值和标准偏差：

以及

此外，群集层级统计确定单元915可以对于每个群集k，针对群集k中的所有的行为特征1-p相加根据公式(13)的标准化的平均值和标准偏差值。这个相加由下面的公式表示：

图10是根据本公开的实施例，在群集度量确定单元515处操作的示例过程1000的流程图。在1005处，访问者群集和针对群集中的所有访问者的访问者行为特征可以被接收。在1010处，可以确定每个群集中的所有的行为特征的行为统计(平均值和标准偏差/方差)，例如，基于公式(9)、(10)。在1015处，行为统计可以例如基于公式(11)-(13)被标准化。在1020处。针对群集k的两个群集层级度量(M_k和S_k)可以例如基于公式(14)被确定。

参考回图5，群集度量被提供给欺诈性群集检测单元520，该单元被配置为基于将群集度量与特定的阈值相比较来确定访问者的具体的群集是否是欺诈性的(即，该访问者是否串通发布者来欺诈地向发布者充入流量)。在这个方面，图11示出了根据本公开的实施例的示例欺诈性群集检测单元520的高层级描绘。如所示，欺诈性群集检测单元520包括群集度量分布生成单元1105，阈值确定单元1110，可疑度检测单元1115、相似度检测单元1120、以及欺诈决定单元1125。

在一些实施例中，群集度量分布生成单元1105(例如，经过流量欺诈检测引擎170的通信平台)接收针对K个群集中的每个群集的群集层级度量(M_k和S_k)和已存档的群集度量数据，并且计算每个群集度量的概率分布。阈值确定单元1110被配置为基于由群集度量分布生成单元1105提供的相应的概率分布来确定针对每个群集度量的阈值。例如，阈值确定单元1110可以确定度量M_k的阈值θ_M＝0.75，以及度量S_k的阈值θ_s＝0.25。在一些实施例中，这两个阈值可能不被计算，并且可以被作为预先配置的值由例如管理器提供。

在一些实施例中，群集度量M_k指示群集是欺诈性群集的可疑度的等级。可疑度检测单元1115被配置来比较每个群集k的群集度量M_k与阈值θ_M，并且任何大于阈值θ_M的群集度量M_k可以指示群集k是可疑的。群集度量M_k越大，群集k越可疑。

在一些实施例中，群集度量S_k指示群集的访问者之间的相似度的等级。相似度检测单元1120被配置来比较每个群集k的群集度量S_k与阈值θ_s，并且任何小于阈值θ_s的群集度量S_k可以指示在群集k中的访问者高度相似。群集度量S_k越小，群集k中的访问者越相似。

在一些实施例中，欺诈决定单元1125被配置为基于来自可疑度检测单元1115和相似度检测单元1120的阈值比较结果来决定群集k是否是欺诈性的。例如，如果满足以下公式，则欺诈结果单元1125可以生成确定群集k是欺诈性的结果：

(a)M_k＞θ_M；或(b)S_k＜θ_S；或(c)M_k＞θ_M并且S_k＜θ_S (15)

图12是根据本公开的实施例的在欺诈性群集检测单元520处操作的示例过程1200的流程图。在1205处，在群集度量分布生成单元1105处可以接收来自群集度量确定单元515的群集度量数据以及来自数据库150的已存档的群集度量数据。在1210处，每个群集度量的概率分布可以被确定，并且在1215和1220处，基于该概率分布，可以分别确定可疑度阈值(即，针对群集度量M_k阈值θ_M)和相似度阈值(即，针对群集度量S_k的阈值θ_S)。

在1225和1230处，做出群集度量M_k是否大于阈值θ_M的比较确定，并且做出群集度量S_k是否小于阈值θ_S的比较确定。如果这两个比较的结果中的任一者为“否”的话，则在1235和1240处，(例如，通过欺诈报告单元525)发送如下消息：访问者群集k在联合伪造在线流量活动方面不具有欺诈性。如果这两个比较的结果中的任一者(或者二者均)为“是”的话，则在1245处，访问者群集k在联合伪造在线流量活动方面被确定为具有欺诈性，并且决定消息被(例如，由欺诈报告单元525)报告给欺诈减轻和管理单元530，其中单元530可以对欺诈性群集中的访问者110和相关的发布者130标记或采取措施，例如，以从系统200中移除或减少欺诈性实体。

图6是根据本公开的实施例的在欺诈检测引擎170处操作的示例过程600的流程图。在605处，从数据库150处接收每个访问者曝光/点击数据和行为特征。在610处，生成对于每个访问者的矢量关系表示，例如使用矢量表示生成单元505。基于该矢量关系表示，在615处访问者110被分组进群集，例如，使用群集生成单元510。在620处，基于群集的访问者的行为特征来确定对于每个群集的群集层级度量，例如，使用群集度量确定单元515。在625处，针对每个群集，做出该群集是否是欺诈性的确定，例如使用欺诈性群集检测单元520。在630处，被确定为欺诈性的群集或访问者(以及相关的发布者)例如使用欺诈报告单元525被报告到参与在线活动的其他发布者、广告商、访问者、和/或系统200的其他实体。在635处，实施一个或多个措施，例如由欺诈减少和管理单元530对于欺诈性的访问者110和相关的发布者130标识或采取措施。

图13描绘了可以被用来实施实现本教导的专有系统的移动设备的架构。在这个示例中，内容和广告在其上被呈现和交互的用户设备是移动设备1300，该设备包括但不局限于智能手机、平板设备、音乐播放器、手持游戏设备、全球定位系统(GPS)接收器、以及可穿戴计算设备(例如眼镜、手表等等)，或其他形式要素的设备。在这个示例中的移动设备1300包括一个或多个中央处理器(CPU)1302、一个或多个图像处理单元(GPU)1304、显示器1306、存储器1308、通信平台1310(例如，无线通信模块)、存储设备1312、以及一个或多个输入/输出(I/O)设备1314。包括但不局限于系统总线或控制器(未被示出)的任何其他适当的组件也可以被包括在移动设备1300中。如在图13中所示，移动操作系统1316(例如，iOS、Android、Windows Phone等等)和一个或多个应用1318可以从存储设备1312被装载到存储器1308中，使得能够由CPU 1302执行。应用1318可以包括浏览器或用于在移动设备1300上接收和呈现内容流和广告的任何其他合适的移动应用。用户与内容流和广告的交互可以经过I/O设备1314来获取并且(例如，经过网络120)被提供给系统200的组件和/或其他相似的系统。

为了实现在本公开中所描述的各种模块、单元、以及它们的功能，计算机硬件平台可以被用作以上所描述的元件中的一个或多个元件的组件的(一个或多个)硬件平台。这种计算机的硬件元件、操作系统、和编程语言本质上是传统的，并且假设本领域技术人员对其充分熟悉以调整那些技术来在不同的应用和设备上推断用户身份，并且基于这种推断来创造和更新用户简档。尽管如果被适当地编程的话计算机还可以作为服务器起作用，具有用户接口元件的计算机可以被用来实现个人计算机(PC)或其他类型的工作站或终端设备。相信本领域技术人员对于这种计算机设备的结构、程序和一般操作都很熟悉并且因此附图应当是自解释的。

图14描绘了可以被用来实施实现本教导的专有系统的计算机设备的架构。结合本教导的这种专有系统具有硬件平台的功能框图，该框图包括用户接口组件。计算机可以是通用计算机或专用计算机。两者都可以被用来实现用于本教导的专有系统。这种计算机1400可以被用来实现如本文所描述的用户简档创建和更新技术的任何组件。例如，流量欺诈检测引擎170、活动和行为处理引擎175等等，可以在计算机(例如计算机1400)上经过它的硬件、软件程序、固件、或以上各项的任何组合而实现。尽管出于简便的目的仅仅示出了一个这样的计算机，但如本文所描述的与提供参与在线内容交互的实体之间的关系表示相关并且与在在线或基于互联网活动与交易中检测联合欺诈相关的计算机功能，可以在一些相似的平台上以分布式的方式实现，以分布处理负载。

计算机1400，例如，包括连接到网络和来自它所连接的网络的COM端口(或一个或多个通信平台)1450用来促进数据通信。计算机1400还包括具有一个或多个处理器形式的用于执行程序指令的中央处理器(CPU)1420。示例的计算机平台包括内部通信总线1410、不同形式的程序存储设备和数据存储设备(例如盘1470、只读存储器(ROM)1430、或随机存取存储器(RAM)1440)，用于由计算机处理和/或通信的各种数据文件以及可能地用于由CPU执行的程序指令。计算机1400还包括I/O组件1460，用于支持在计算机和计算机中的其他组件(例如用户接口组件1480)之间的输入/输出流。计算机1400还可以通过网络通信接收程序和数据。

因此，如上文所提及的，改进广告服务和/或其他处理的方法的方面可以被体现在程序中。本技术的程序方面可以被视作通常采用由某种类型的机器可读介质承载的或在其中体现的可执行代码和/或相关联的数据形式的“产品”或“制品”。有形的非暂态“存储”类型介质包括用于计算机、处理器等等的任何的或全部的存储器或其他存储设备，或相关联的模块(例如，各种半导体存储器、磁带驱动、盘驱动等等)，其可以在任何时刻提供对于软件程序的存储。

有时，全部的或部分的软件可以通过网络(例如互联网或各种其他电信网络)被传送。这种通信例如能够使得软件从一个计算机或处理器加载到另一个中，例如，从搜索引擎操作器的管理服务器或主机或其他用户简档和应用管理服务器加载到实现与用户简档创建和更新技术有关的计算环境或相似的功能的计算网络或其他系统的(一个或多个)硬件平台。因此，可能具有软件元件的另一种介质包括光波、电波和电磁波(例如经过有线的和光学陆地线路网络以及通过各种空中链路、在本地设备之间的物理接口上所使用)。承载这些波的物理元件(例如有线或无线的链路、光学链路等等)还能够被视作承载软件的介质。如本文使用的，除非限定于有形“存储”介质，否则例如计算机或机器“可读介质”的术语指的是参与向处理器提供用于执行的指令的任何介质。

因此，机器可读介质可以具有多种形式，包括但不局限于有形存储介质、载波介质、或物理传输介质。非易失存储介质包括，例如，光盘或磁盘，例如在(一个或多个)任意计算机等等中的任何存储设备，该存储设备可以被用来实现如在附图中所示出的系统或它的任何组件。易失存储介质包括动态存储器，例如这种计算机平台的主存储器。有形传输介质包括同轴电缆：铜线和光纤，其包括在计算机系统内形成总线的线路。载波传输介质可以具有电或电磁信号、或声波或光波的形式，例如在射频(RF)和红外(IR)数据通信中所生成的那些。因此计算机可读介质的一般形式包括例如：软盘、折叠盘、硬盘、磁带、任何其他磁介质、CD-ROM、DVD、或DVD-ROM、任何其他光学介质、打卡纸带、具有孔的图案的任何其他物理存储介质、RAM、PROM、以及EPROM、FLASH-EPROM、任何其他存储器芯片或盒、运输数据或指令的载波、运输这种载波的线缆或链路，或计算机能够从其读取程序代码和/或数据的任何其他的介质。许多这种形式的计算机可读介质能够涉及运载一个或多个序列的一个或多个指令到物理处理器用于执行。

本领域技术人员应当认识到本教导可进行各种修改和/或改进。例如，尽管以上所描述的各种组件的实现方式可以被体现在硬件设备中，但它还可以仅作为软件方案而实现，例如，在现有的服务器上安装。此外，如本文所公开的基于以用户为主导的本机广告的增强性广告服务可以作为固件、固件/软件组合、固件/硬件组合、或硬件/固件/软件组合而实现。

尽管上文已经描述了考虑哪些内容用来构成本教导和/或其他示例，但应当理解可以对此做出各种修改，并且本文所公开的主旨能够以各种形式和示例来实现，并且本教导可以被应用在各种应用中，本文仅仅描述了其中的一些。所附权利要求书意在要求保护落在本教导的真实范围内的任何的和全部的应用、修改、以及变化。

Claims

1.一种用来提供与在线内容交互相关的实体之间的关系的表示的方法，该方法被实现在具有处理器、存储单元、以及能够连接到网络的通信平台的机器上，所述方法包括：

通过通信平台接收与第一实体集和第二实体集之间的在线内容交互相关的数据；

基于所接收的数据，针对所述第一实体集中的每一个第一实体确定第一交互频率值的集合，该第一交互频率值的集合中的每一个第一交互频率值对应于所述第二实体集中的一个第二实体；

基于所接收的数据，针对所述第二实体集中的每一个第二实体确定第二交互频率值以获得针对所述第二实体集的第二交互频率值的集合；

针对所述第一实体集中的每一个第一实体，基于针对该第一实体的第一交互频率值的集合中针对每一个第二实体的第一交互频率值与所述第二交互频率值的集合中针对相应第二实体的第二交互频率值的乘积，来确定该第一实体针对所述相应第二实体的关系值；以及

基于该第一实体针对所述第二实体集中的每一个第二实体的关系值来确定关系值的集合，每一个关系值指示该第一实体和所述第二实体集中的一个第二实体之间的交互关系。

2.根据权利要求1所述的方法，其中，所述第一实体集包括在线内容的用户，并且所述第二实体集包括在线内容发布者、在线内容提供者、以及在线广告商中的一个或多个。

3.根据权利要求1所述的方法，其中，所述数据包括每一个第一实体与由每一个第二实体所提供的在线内容进行交互的实例的数量。

4.根据权利要求3所述的方法，其中，所述针对所述第一实体集中的每一个第一实体确定第一交互频率值的集合是基于：该第一实体与由每一个第二实体所提供的在线内容进行交互的实例的数量，以及该第一实体与由所述第二实体集所提供的在线内容进行交互的实例的总数。

5.根据权利要求4所述的方法，其中，所述针对所述第二实体集中的每一个第二实体确定第二交互频率值是基于：与由所述第二实体所提供的在线内容进行交互的不同的第一实体的数量，以及第一实体的总数。

6.根据权利要求1所述的方法，还包括：

基于相应的关系值的集合来将所述第一实体集分组到群集中；

获取针对每一个第一实体的流量特征，其中所述流量特征至少基于表示该第一实体与所述在线内容进行交互的数据；

针对每一个群集，基于该群集中的第一实体的流量特征来确定群集度量；以及

基于集群中的第一群集的群集度量来确定所述第一群集是否是欺诈性的。

7.根据权利要求6所述的方法，其中，所述确定所述第一群集是否是欺诈性的包括：确定与所述第一群集相关的流量特征的第一统计值是否大于第一阈值，或确定与所述第一群集相关的流量特征的第二统计值是否小于第二阈值，或确定两者，其中所述第一统计值指示所述群集的可疑度的等级，并且第二统计值指示所述群集的第一实体之间的相似度的等级。

8.一种用来提供与在线内容交互相关的实体之间的关系的表示的系统，所述系统包括：

通信平台，被配置来接收与第一实体集和第二实体集之间的在线内容交互相关的数据；

第一频率单元，被配置来基于所接收的数据，针对所述第一实体集中的每一个第一实体确定第一交互频率值的集合，该第一交互频率值的集合中的每一个第一交互频率值对应于所述第二实体集中的每一个第二实体；

第二频率单元，被配置来基于所接收的数据，针对所述第二实体集中的每一个第二实体确定第二交互频率值以获得针对所述第二实体集的第二交互频率值的集合；以及

关系单元，被配置来针对所述第一实体集中的每一个第一实体，基于针对该第一实体的第一交互频率值的集合中针对每一个第二实体的第一交互频率值与所述第二交互频率值的集合中针对相应第二实体的第二交互频率值的乘积，来确定该第一实体针对所述相应第二实体的关系值，并且基于该第一实体针对所述第二实体集中的每一个第二实体的关系值来确定关系值的集合，每一个关系值指示该第一实体和所述第二实体集中的一个第二实体的交互关系。

9.根据权利要求8所述的系统，其中，所述第一实体集包括在线内容的用户，并且所述第二实体集包括在线内容发布者、在线内容提供者、以及在线广告商中的一个或多个。

10.根据权利要求 8所述的系统，其中，所述数据包括每一个第一实体与由每一个第二实体所提供的在线内容进行交互的实例的数量。

11.根据权利要求10所述的系统，其中，所述第一频率单元被配置来针对所述第一实体集中的每一个第一实体，基于如下项来确定所述第一交互频率值的集合：该第一实体与由每一个第二实体所提供的在线内容进行交互的实例的数量，以及该第一实体与由所述第二实体集所提供的在线内容进行交互的实例的总数。

12.根据权利要求11所述的系统，其中所述第二频率单元被配置来针对所述第二实体集中的每一个第二实体，基于如下项来确定第二交互频率值：与由该第二实体所提供的在线内容进行交互的不同第一实体的数量，以及第一实体的总数。

13.根据权利要求8所述的系统，还包括：

群集生成单元，被配置来基于对应的关系值的集合，来将所述第一实体集分组到群集中；

群集度量确定单元，被配置来针对每一个群集，基于该群集中的每个相应的第一实体的流量特征来确定群集度量，其中，所述流量特征至少基于表示所述第一实体中的该第一实体与所述在线内容进行交互的数据；以及

欺诈性群集检测单元，被配置来基于群集中的第一群集的群集度量来确定所述第一群集是否是欺诈性的。

14.根据权利要求13所述的系统，其中，所述欺诈性群集检测单元被配置来确定与所述第一群集相关的流量特征的第一统计值是否大于第一阈值，或确定与所述第一群集相关的流量特征的第二统计值是否小于第二阈值，或确定两者，其中所述第一统计值指示所述群集的可疑度的等级，并且第二统计值指示所述群集中的第一实体间的相似度的等级。

15.一种机器可读的有形非暂态介质，其具有记录在其上的信息，该信息用来提供与在线内容交互相关的实体之间的关系的表示，其中，当所述信息由所述机器读取时使得所述机器至少执行以下操作：

基于所接收的数据，针对所述第一实体集中的每一个第一实体，确定第一交互频率值的集合，该第一交互频率值的集合中的每一个第一交互频率值对应于所述第二实体集中的一个第二实体；

基于该第一实体针对所述第二实体集中的每一个第二实体的关系值，来确定关系值的集合，每一个关系值指示该第一实体和所述第二实体集中的一个第二实体之间的交互关系。

16.根据权利要求15所述的介质，其中，所述第一实体集包括在线内容的用户，并且所述第二实体集包括在线内容发布者、在线内容提供者、在线广告商中的一个或多个。

17.根据权利要求15所述的介质，其中，所述数据包括每一个第一实体与由每一个第二实体所提供的在线内容进行交互的实例的数量。

18.根据权利要求17所述的介质，其中，所述针对所述第一实体集中的每一个第一实体确定第一交互频率值的集合是基于：该第一实体与由每一个第二实体所提供的在线内容进行交互的实例的数量，以及该第一实体与由所述第二实体集所提供的在线内容进行交互的实例的总数。

19.根据权利要求18所述的介质，其中，所述针对所述第二实体集中的每一个第二实体确定第二交互频率值是基于：与由所述第二实体所提供的在线内容进行交互的不同的第一实体的数量，以及第一实体的总数。

20.根据权利要求15所述的介质，其中，当所述信息由所述机器读取时，还使得所述机器执行下列操作：