CN111985979A

CN111985979A - 用于广告业务中的无效流量信息处理的方法和装置

Info

Publication number: CN111985979A
Application number: CN202010935326.9A
Authority: CN
Inventors: 苏同; 李响; 张炎; 雷扬帆; 朱拓
Original assignee: Hylink Digital Technology Co ltd
Current assignee: Hylink Digital Technology Co ltd
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2020-11-24
Anticipated expiration: 2040-09-08
Also published as: CN111985979B

Abstract

本说明书的实施例提供了用于广告业务中的无效流量信息处理的方法、装置、计算设备和机器可读存储介质。该方法包括：确定参与过广告位访问的多个节点，多个节点包括第一类节点和第二类节点；确定多个节点是否为初始无效节点；基于多个节点是否为初始无效节点，分别确定多个节点的来源分数；基于多个节点的来源分数以及多个节点的联系分数，分别确定多个节点的评分，其中：对于第一类节点，每个节点的联系分数是基于该节点与第二类节点中的每个节点的关联度来得到的；对于第二类节点，每个节点的联系分数是基于该节点与第一类节点中的每个节点的关联度来得到的。

Description

用于广告业务中的无效流量信息处理的方法和装置

技术领域

本说明书的实施例涉及信息技术领域，具体地，涉及用于广告业务中的无效流量信息处理的方法、装置、计算设备和机器可读存储介质。

背景技术

从在线广告业务发展的早期，无效流量就开始肆虐于广告平台。无效流量通常意味着用户针对广告的活动并非是真实的，比如点击网页或应用程序(APP)之类的行为可能是伪造和虚构。可见，无效流量不仅浪费广告主的广告成本，而且可能严重影响广告活动的有效性。因此，对于在线广告业务而言，如何识别无效流量是非常关键的。

发明内容

考虑到现有技术的上述问题，本说明书的实施例提供了用于广告业务中的无效流量信息处理的方法、装置、计算设备和机器可读存储介质。

一方面，本说明书的实施例提供了一种用于广告业务中的无效流量信息处理的方法，包括：确定参与过广告位访问的多个节点，所述多个节点包括第一类节点和第二类节点，所述第一类节点分别代表不同的互联网协议IP地址，所述第二类节点分别代表不同的用户设备；确定所述多个节点是否为初始无效节点；基于所述多个节点是否为初始无效节点，分别确定所述多个节点的来源分数；基于所述多个节点的来源分数以及所述多个节点的联系分数，分别确定所述多个节点的评分，以便用于广告业务中的无效流量识别，其中，每个节点的评分表征该节点为无效流量节点的概率，其中：对于所述第一类节点，每个节点的联系分数是基于该节点与所述第二类节点中的每个节点的关联度来得到的；对于所述第二类节点，每个节点的联系分数是基于该节点与所述第一类节点中的每个节点的关联度来得到的。

另一方面，本说明书的实施例提供了一种用于广告业务中的无效流量信息处理的装置，包括：节点确定单元，用于确定参与过广告位访问的多个节点，所述多个节点包括第一类节点和第二类节点，所述第一类节点分别代表不同的互联网协议IP地址，所述第二类节点分别代表不同的用户设备；识别单元，用于确定所述多个节点是否为初始无效节点；分数确定单元，用于基于所述多个节点是否为初始无效节点，分别确定所述多个节点的来源分数；评分确定单元，用于基于所述多个节点的来源分数以及所述多个节点的联系分数，分别确定所述多个节点的评分，以便用于广告业务中的无效流量识别，其中，每个节点的评分表征该节点为无效流量节点的概率，其中：对于所述第一类节点，每个节点的联系分数是基于该节点与所述第二类节点中的每个节点的关联度来得到的；对于所述第二类节点，每个节点的联系分数是基于该节点与所述第一类节点中的每个节点的关联度来得到的。

另一方面，本说明书的实施例提供了一种计算设备，包括：至少一个处理器；与所述至少一个处理器进行通信的存储器，其上存储有可执行代码，所述可执行代码在被所述至少一个处理器执行时使得所述至少一个处理器实现上述方法。

另一方面，本说明书的实施例提供了一种机器可读存储介质，其存储有可执行代码，所述可执行代码在被执行时使得机器执行上述方法。

附图说明

通过结合附图对本说明书的实施例的更详细的描述，本说明书的实施例的上述以及其它目的、特征和优势将变得更加明显，其中，在本说明书的实施例中，相同的附图标记通常代表相同的元素。

图1是根据本文的实施例的用于广告业务中的无效流量信息处理的方法的示意性流程图。

图2是根据本文的实施例的UV值的统计过程的一个示例。

图3A是根据本文的实施例的不同类型的节点之间的关联模型的一个示例。

图3B是关于第一类节点的联系分数的计算过程的一个示例。

图3C是关于第二类节点的联系分数的计算过程的一个示例。

图4是根据本文的实施例的用于广告业务中的无效流量信息处理的装置的示意框图。

图5是根据一个实施例的用于广告业务中的无效流量信息处理的计算设备的硬件结构图。

具体实施方式

现在将参考各实施例讨论本文描述的主题。应当理解的是，讨论这些实施例仅是为了使得本领域技术人员能够更好地理解并且实现本文描述的主题，并非是对权利要求书中所阐述的保护范围、适用性或者例子的限制。可以在不脱离权利要求书的保护范围的情况下，对所讨论的元素的功能和排列进行改变。各个实施例可以根据需要，省略、替换或者添加各种过程或组件。

如本文中使用的，术语“包括”及其变型表示开放的术语，含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其它实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其它的定义，无论是明确的还是隐含的，除非上下文中明确地指明，否则一个术语的定义在整个说明书中是一致的。

无效流量中的很大一部分属于虚假流量，其意味着针对广告的点击、网页浏览等行为可能是伪造的或虚构的，这不仅可能浪费广告主的广告成本，而且可能严重影响广告活动的有效性。因此，无效流量识别已经成为在线广告行业亟需解决的问题之一。为了便于理解，下面将以涉及实时竞价的在线广告场景为例进行描述。

在涉及实时竞价的在线广告场景中，通常通过竞拍“广告位”的方式来决定在该广告位上最终展示的广告。具体而言，媒体可以向需求方平台(Demand-Side Platform，DSP)发送竞价请求，以便向DSP表明可以针对某个广告位进行竞拍。例如，广告位可以包括网页或移动端应用中的广告位等等。竞价请求可以携带与广告位有关的各种信息，比如访问该广告位的IP地址、用户设备标识等等。此外，DSP可以是各个广告主的代理平台，其具有各个广告主针对广告投放的需求等具体信息。

DSP在接收到竞价请求之后，可以基于竞价请求以及广告主的需求，来决定是否参与竞价以及针对竞价所出的价格。这个过程可以是实时发起和执行的，一般能够在毫秒之内完成。

在该过程中，为了确保广告活动的有效性，DSP通常还需要证实媒体的竞价请求是否真实有效，也就是进行无效流量识别，从而识别竞价是否是来自一些虚假、伪造甚至恶意的刷量活动。

通常，无效流量识别主要是识别参与广告位访问的用户设备和互联网协议(Internet Protocol，IP)地址是否是无效的。目前一种典型的解决方案是建立黑名单，其通常是由广告业内的成员和/或广告协会基于行业内经验整理的并且在彼此之间共享。黑名单可以包括无效的IP地址或用户设备标识的列表。

这样，DSP在接收到媒体的竞价请求时，可以将其中的IP地址或用户设备标识与黑名单进行比较。如果相应的IP地址或用户设备标识在该黑名单中，则认为该IP地址或用户设备标识是无效的，进而可以拒绝媒体的竞价请求。

然而，目前的黑名单一般都是基于简单的业务规则方式来形成的，因此在无效流量识别时并不准确。此外，用户设备标识和IP地址易于被大量伪造且快速更换，导致此类无效流量识别方式缺乏时效性。

对此，本文提出了一种用于广告业务中的无效流量信息处理的技术方案，以便实现高效的无线流量识别。

首先，为了便于描述，引入了节点的概念。下文中将使用节点来指代IP地址或用户设备。也就是说，可以存在两种类型的节点，一类节点可以代表IP地址，另一类节点可以代表用户设备。相应地，节点可以具体利用IP地址或用户设备标识来表示。用户设备标识可以包括各种适用的用户设备标识，比如国际移动设备标识(International MobileEquipment Identity，IMEI)、广告标识符(Identifier For Advertising，IDFA)、媒体访问控制(Media Access Control，MAC)地址等等。

在该技术方案中，可以针对每个节点确定其评分，该评分可以表征节点是无效流量节点的概率。该评分可以由两项因素来决定。一项因素可以被称为节点的来源分数，来源分数可以以量化方式来表示节点作为初始无效节点的程度。另一项因素可以被称为节点的联系分数，联系分数可以以量化方式来表示节点与其它不同类型的节点之间的关联程度。

这样，通过以量化的方式表示节点作为无效流量节点的概率，从而能够更加准确地且动态地判断广告业务中的无效流量节点，由此实现高效的无线流量识别。

下面将结合具体实施例来描述本文的技术方案。

图1是根据一个实施例的用于广告业务中的无效流量信息处理的方法的示意性流程图。

如图1所示，在步骤102中，可以确定参与过广告位访问的多个节点。

多个节点可以包括第一类节点和第二类节点。此处，第一类节点分别代表不同的IP地址，第二类节点可以分别代表不同的用户设备。

在步骤104中，可以确定多个节点是否为初始无效节点。

在步骤106中，可以基于多个节点是否为初始无效节点，分别确定多个节点的来源分数。

在步骤108中，可以基于多个节点的来源分数以及多个节点的联系分数，分别确定多个节点的评分，以便用于广告业务中的无效流量识别。

每个节点的评分可以表征该节点为无效流量节点的概率。例如，节点的评分与作为无效流量节点的概率可以是单调正相关的，即对于评分高的节点，其为无效流量节点的概率可以认为是高的，而对于评分低的节点，其为无效流量节点的概率可以认为是低的。

具体而言，对于第一类节点，每个节点的联系分数可以是基于该节点与第二类节点中的每个节点的关联度来得到的。

对于第二类节点，每个节点的联系分数可以是基于该节点与第一类节点中的每个节点的关联度来得到的。

可见，在该实施例中，可以基于参与过广告位访问的各个节点是否为初始无效节点，确定各个节点的来源分数，然后结合表示每个节点与另一类型的节点之间的关联度的联系分数，得到各个节点的评分。由此，可以通过量化的方式表示各个节点为无效流量节点的概率。这样，通过各个节点的评分，能够更加准确且可靠地实现后续的无效流量识别。

例如，在一种实现方式中，可以选择评分高于某个阈值的那些节点作为最终确定的无效流量节点，然后将包括这些节点的列表作为黑名单在业内共享。

在另一种实现方式中，可以直接将这些节点按照评分进行排序，来形成节点列表。然后可以根据实际需求选择其中的某些节点参与广告业务。例如，可以基于预期的广告活动效果，选择前10％的低评分的节点参与广告业务。

在一个实施例中，在步骤102中，可以基于在预定时段内的广告位访问日志数据来确定多个节点。例如，多个节点可以包括广告位访问日志数据中记录的节点。此处，预定时段可以是根据实际实现需求来设置的，比如可以是一天、两天、一周、两周、一个月、六个月等等。

在另一实施例中，在步骤102中，可以将广告位日志访问数据和预先定义的无效节点名单来确定多个节点。例如，多个节点可以包括广告位访问日志数据中记录的节点以及来自无效节点名单的节点。

此处的无效节点名单可以是前述的由广告协会和/或业内成员共享的黑名单。

可见，本文的技术方案可以根据实际需求，来灵活地确定在所期望的时段内出现的节点的评分，从而高效地识别在该时段内的无效流量状况。那么可以理解的是，在计算资源充足的理想情况下，甚至可以达到实时更新节点的评分，从而能够更加准确且可靠地进行无效流量识别。

在一个实施例中，在步骤104中，对于多个节点中任意的第k节点而言(k可以为正整数)，如果第k节点在上述无效节点名单(即黑名单)中，则可以确定第k节点是初始无效节点。

如果第k节点不在该无效节点名单中，则可以基于第k节点在预定时段内参与广告位访问的独立访问数量，来确定第k节点是否为初始无效节点。

可见，通过确定节点是否为初始无效节点，实际上可以将该节点的历史行为或状态考虑在内，从而更加准确地确定节点为无效流量节点的概率。

在一个实施例中，如果第k节点在预定时段内的独立访问数量超过预定阈值，则可以确定第k节点为初始无效节点。

如果第k节点在预定时段内的独立访问数量不超过预定阈值，则可以确定所述第k节点不是初始无效节点。

为了便于理解，下面结合具体示例来介绍独立访问数量的概念。

通常，用户设备在进行网络访问时会被分配相应的网络IP地址。相应地，用户设备可以通过所分配的IP地址与媒体连通，进而访问相应的广告位。一个用户设备可能使用多个IP地址，而一个IP地址可能被多个用户设备使用。

用户设备通过IP地址对广告位的访问可以被记录为日志数据，并且被传送到广告服务平台。

这样，广告服务平台可以对日志数据进行分析，从而能够确定针对每个广告位的独立访问数量，比如每个IP地址在该广告位上的独立用户设备数量。通过将预定时段内的日志数据进行统计，可以得到每个IP地址在预定时段内在访问过的所有广告位上的独立访问数量(即独立用户设备数量)，或者每个用户设备在预定时段在访问过的所有广告位上的独立访问数量(即独立IP地址数量)。在本文中，独立访问数量可以被表示为UV(UniqueVisitor)值。

例如，图2示出了UV值的统计过程的一个示例。如图2所示，一个用户设备可能使用多个IP地址来访问一个或多个广告位，而一个IP地址可能被多个用户设备用来访问一个或多个广告位。在预定时段内对两个广告位的访问日志数据被传送到广告服务平台，广告服务平台可以对日志数据进行分析，得到每个IP地址在该预定时段内在访问过的所有广告位上的独立访问数量以及每个用户设备在该预定时段内在访问过的两个广告位上的独立访问数量。

一般而言，UV值越高，相应的IP地址或用户设备越可能是无效的。因此，如果某个节点在预定时段内的UV值超过预定阈值，则可以认为该节点是初始无效节点。该预定阈值可以是根据经验或者业务需求来设置的。

然后，在步骤106中，可以确定各个节点的来源分数。例如，对于每个节点，如果该节点为初始无效节点，则可以将该节点的来源分数确定为预定值。如果该节点不是初始无效节点，则可以将该节点的来源分数设置为0。当然，在其它实现方式中，也可以将来源分数量化在0～1之间。例如，对于初始无效节点而言，其来源分数可以是1，而对于非初始无效节点，其来源分数可以与其独立访问数量之间存在某种转换关系。这种转换关系可以是根据实际需求而预先设定的。

之后，在步骤108中，可以基于各个节点的来源分数和联系分数来确定各个节点的评分。

例如，可以基于预定权重将节点的来源分数与联系分数进行加权求和，得到该节点的评分。

具体地，对于第一类节点中任意的第i节点，其评分可以通过以下等式来表示，其中，i为小于或等于M的正整数，M为所述第一类节点的数量，M为正整数：

R_i＝θR_i(r)+(1-θ)R_i(a) (1)

其中，R_i表示第i节点的评分，θ表示来源分数的权重，R_i(r)表示第i节点的来源分数，R_i(a)表示第i节点的联系分数。

类似地，对于第二类节点中任意的第j节点，其评分可以通过以下等式来表示，其中，j为小于或等于N的正整数，N为第二类节点的数量，N为正整数：

S_j＝θS_j(r)+(1-θ)S_j(a) (2)

其中，S_j表示第j节点的评分，θ表示来源分数的权重，S_j(r)表示第j节点的来源分数，S_j(a)表示第j节点的联系分数。

如前所述，每个节点的联系分数可以表示该节点与另一类节点之间的关联度。也就是说，在本文中，节点之间的关联度可以是指不同类型的节点之间的关联度，而不是相同类型的节点之间的关联度，例如，IP地址与不同的用户设备之间的关联度、用户设备与不同IP地址之间的关联度。

这是因为，在实践中发现，无效IP地址和无效用户设备之间可能互相牵连，因此，将不同类型的节点之间的关联度考虑在内来确定节点的评分，能够准确地评估节点是否为无效流量节点。

为了便于理解，下面结合具体示例来说明不同类型的节点之间的关联模型的示例。这种关联模型也可以被称为图数模型。

例如，在图3A的示例中，IP地址可能与一个或多个用户设备发生关联，而一个用户设备可能与一个或多个IP地址发生关联。其中，代表IP地址的节点与代表用户设备的节点之间的连线可以表示它们之间具有关联。

在本文中，可以采用任何适当的方式来确定各个节点的联系分数。

例如，对于第一类节点，每个节点的联系分数可以被表示为第二类节点中的各节点的评分的加权求和。

例如，对于第一类节点中任意的第i节点，其联系分数可以通过以下等式来表示：

其中，

类似地，对于第二类节点，每个节点的联系分数可以被表示第一类节点中的各节点的评分的加权求和。

例如，对于第二类节点中任意的第j节点，其联系分数可以通过以下等式来表示：

其中，

在上述等式(3)和(4)中，w_ij可以表示第i节点与第j节点之间的关联权重。

通常，如果第i节点和第i节点之间是直接连接的，则w_ij可以为大于0的值，而如果第i节点和第i节点之间不是直接连接的，则w_ij可以等于0。

为了便于理解，下面结合具体示例来说明如何计算各个节点的联系分数。图3B示出了关于第一类节点的联系分数的计算过程的示例。

在图3B的示例中，假设第二类节点包括3个节点，即节点1-3。

另外，假设第一类节点中的第i节点(在图3B中表示为节点i)与节点1-3之间的关联权重分别为w_i1、w_i2、w_i3。

那么，节点i的联系分数可以表示为：

其中，w_i＝w_i1+w_i2+w_i3

图3C示出了关于第二类节点的联系分数的计算过程的示例。

在图3C的示例中，假设第一类节点包括4个节点，即节点1-4

另外，假设第二类节点中的第j节点(在图3C中表示为节点j)与节点1-4之间的关联权重分别为w_1j、w_2j、w_3j、w_4j。

那么，节点j的联系分数可以表示为：

其中，w_j＝w_1j+w_2j+w_3j+w_4j

从上述可以看出，第一类节点的联系分数可以是通过对第二类节点的评分进行聚合得到的，而第二类节点的联系分数可以是通过对第一类节点的评分聚合得到。

在已经确定节点的来源分数、来源分数的权重以及节点之间的关联权重的情况下，可以采用循环迭代方式来对等式(1)和(2)求解。例如，在每次循环中包括两个步骤：第一步计算R_i(a)和R_i；第二步计算S_j(a)和S_j。循环最终收敛时的结果即为相应的评分。

本文涉及的节点以及不同类型的节点之间的关联关系，可以通过各种适用的数据库来存储，比如NoSQL数据库，其可以存储十亿量级的节点信息，从而便于在生产上实现本文的技术方案。

从上述可知，本文的技术方案可以部署在广告服务平台(例如，前述的DSP)上。或者，本文的技术方案可以部署不同于广告服务平台的其它设备或平台上，而这样的设备或平台可以与广告服务平台相通信，以便向提供广告服务平台所需要的结果，比如按照评分高低排序的部分或全部节点列表等等。因此，本文的技术方案可以适用于高效的并行计算环境。

节点确定单元402可以确定参与过广告位访问的多个节点。多个节点包括第一类节点和第二类节点。第一类节点可以分别代表不同的IP地址，第二类节点可以分别代表不同的用户设备。

识别单元404可以确定多个节点是否为初始无效节点。

分数确定单元406可以基于多个节点是否为初始无效节点，分别确定多个节点的来源分数。

评分确定单元408可以基于多个节点的来源分数以及多个节点的联系分数，分别确定多个节点的评分，以便用于广告业务中的无效流量识别。每个节点的评分可以表征该节点为无效流量节点的概率。

此处，对于第一类节点，每个节点的联系分数可以是基于该节点与第二类节点中的每个节点的关联度来得到的。对于第二类节点，每个节点的联系分数可以是基于该节点与第一类节点中的每个节点的关联度来得到的。

在一个实施例中，对于多个节点中任意的第k节点，k为正整数：如果第k节点在预先定义的无效节点名单中，则识别单元404可以确定第k节点为初始无效节点；如果第k节点不在无效节点名单中，则识别单元404可以基于第k节点在预定时段内参与广告位访问的独立访问数量，确定第k节点是否为初始无效节点。

在一个实施例中，如果第k节点在预定时段内的独立访问数量超过预定阈值，则识别单元404可以确定第k节点为初始无效节点。如果第k节点在预定时段内的独立访问数量不超过预定阈值，则识别单元404可以确定第k节点不是初始无效节点。

在一个实施例中，对于多个节点中的每个节点，如果该节点为初始无效节点，则分数确定单元406可以将该节点的来源分数确定为预定值。如果该节点不是初始无效节点，则分数确定单元406可以将该节点的来源分数设置为0。

在一个实施例中，对于第一类节点，每个节点的联系分数可以被表示为第二类节点中的各节点的评分的加权求和。对于第二类节点，每个节点的联系分数可以被表示第一类节点中的各节点的评分的加权求和。

在一个实施例中，第一类节点中任意的第i节点的联系分数R_i(a)可以通过等式(3)来表示。

在一个实施例中，第二类节点中任意的第j节点的联系分数S_j(a)可以通过等式(4)来表示。

在一个实施例中，对于多个节点中的每个节点，评分确定单元408可以基于预定权重将该节点的来源分数和该节点的联系分数进行加权求和，以得到该节点的评分。

在一个实施例中，节点确定单元402可以基于在预定时段内的广告位访问日志数据来确定多个节点。在这种情况下，多个节点可以包括广告位访问日志数据中记录的节点。

在一个实施例中，节点确定单元402可以基于广告位访问日志数据以及预先定义的无效节点名单来确定多个节点。在这种情况下，多个节点可以包括广告位访问日志数据中记录的节点以及来自无效节点名单的节点。

装置400的各个单元可以执行图1至3C的方法实施例中的相应步骤，因此，为了描述的简洁，装置400的各个单元的具体操作和功能此处不再赘述。

上述装置400可以采用硬件实现，也可以采用软件实现，或者可以通过软硬件的组合来实现。例如，装置400在采用软件实现时，其可以通过其所在设备的处理器将存储器(比如非易失性存储器)中对应的可执行代码读取到内存中运行来形成。

图5是根据一个实施例的用于广告业务中的无效流量信息处理的计算设备的硬件结构图。如图5所示，计算设备500可以包括至少一个处理器502、存储器504、内存506和通信接口508，并且至少一个处理器502、存储器504、内存506和通信接口508经由总线510连接在一起。至少一个处理器502执行在存储器504中存储或编码的至少一个可执行代码(即，上述以软件形式实现的元素)。

在一个实施例中，在存储器504中存储的可执行代码在被至少一个处理器502执行时，使得计算设备实现以上结合图1-3C描述的各种过程。

计算设备500可以采用本领域任何适用的形式来实现，例如，其包括但不限于台式计算机、膝上型计算机、智能电话、平板计算机、消费电子设备、可穿戴智能设备等等。

本说明书的实施例还提供了一种机器可读存储介质。该机器可读存储介质可以存储有可执行代码，可执行代码在被机器执行时使得机器实现上面参照图1至3C描述的方法实施例的具体过程。

例如，机器可读存储介质可以包括但不限于随机存取存储器(Random AccessMemory，RAM)、只读存储器(Read-Only Memory，ROM)、电可擦除可编程只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、静态随机存取存储器(Static Random Access Memory，SRAM)、硬盘、闪存等等。

应当理解的是，本说明书中的各个实施例均采用递进的方式来描述，各个实施例之间相同或相似的部分相互参见即可，每个实施例重点说明的都是与其它实施例的不同之处。例如，对于上述关于装置的实施例、关于计算设备的实施例以及关于机器可读存储介质的实施例而言，由于它们基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上文对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

上述各流程和各系统结构图中不是所有的步骤和单元都是必须的，可以根据实际的需要忽略某些步骤或单元。上述各实施例中描述的装置结构可以是物理结构，也可以是逻辑结构，即，有些单元可能由同一物理实体实现，或者，有些单元可能分别由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

在整个本说明书中使用的术语“示例性”意味着“用作例子、实例或例示”，并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的，具体实施方式包括具体细节。然而，可以在没有这些具体细节的情况下实施这些技术。在一些实例中，为了避免对所描述的实施例的概念造成难以理解，公知的结构和装置以框图形式示出。

以上结合附图详细描述了本公开内容的实施例的可选实施方式，但是，本公开内容的实施例并不限于上述实施方式中的具体细节，在本公开内容的实施例的技术构思范围内，可以对本公开内容的实施例的技术方案进行多种变型，这些变型均属于本公开内容的实施例的保护范围。

本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说，对本公开内容进行的各种修改是显而易见的，并且，也可以在不脱离本公开内容的保护范围的情况下，将本文所定义的一般性原理应用于其它变型。因此，本公开内容并不限于本文所描述的例子和设计，而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims

1.一种用于广告业务中的无效流量信息处理的方法，包括：

确定参与过广告位访问的多个节点，所述多个节点包括第一类节点和第二类节点，所述第一类节点分别代表不同的互联网协议IP地址，所述第二类节点分别代表不同的用户设备；

确定所述多个节点是否为初始无效节点；

基于所述多个节点是否为初始无效节点，分别确定所述多个节点的来源分数；

基于所述多个节点的来源分数以及所述多个节点的联系分数，分别确定所述多个节点的评分，以便用于广告业务中的无效流量识别，其中，每个节点的评分表征该节点为无效流量节点的概率，其中：

对于所述第一类节点，每个节点的联系分数是基于该节点与所述第二类节点中的每个节点的关联度来得到的；

对于所述第二类节点，每个节点的联系分数是基于该节点与所述第一类节点中的每个节点的关联度来得到的。

2.根据权利要求1所述的方法，其中，确定所述多个节点是否为初始无效节点，包括：

对于所述多个节点中任意的第k节点，k为正整数，

如果所述第k节点在预先定义的无效节点名单中，则确定所述第k节点为初始无效节点；

如果所述第k节点不在所述无效节点名单中，则基于所述第k节点在预定时段内参与广告位访问的独立访问数量，确定所述第k节点是否为初始无效节点。

3.根据权利要求2所述的方法，其中，基于所述第k节点在预定时段内参与广告位访问的独立访问数量，确定所述第k节点是否为初始无效节点，包括：

如果所述第k节点在所述预定时段内的独立访问数量超过预定阈值，则确定所述第k节点为初始无效节点；

如果所述第k节点在所述预定时段内的独立访问数量不超过所述预定阈值，则确定所述第k节点不是初始无效节点。

4.根据权利要求1至3中任一项所述的方法，其中，基于所述多个节点是否为初始无效节点，分别确定所述多个节点的来源分数，包括：

对于所述多个节点中的每个节点，

如果该节点为初始无效节点，则将该节点的来源分数确定为预定值；

如果该节点不是初始无效节点，则将该节点的来源分数设置为0。

5.根据权利要求1至3中任一项所述的方法，其中，

对于所述第一类节点，每个节点的联系分数被表示为所述第二类节点中的各节点的评分的加权求和；

对于所述第二类节点，每个节点的联系分数被表示所述第一类节点中的各节点的评分的加权求和。

6.根据权利要求5所述的方法，其中，所述第一类节点中任意的第i节点的联系分数R_i(a)是通过以下等式来表示的，其中，i为小于或等于M的正整数，M为所述第一类节点的数量：

j为小于或等于N的正整数

其中，S_j表示所述第二类节点中的第j节点的评分，w_ij表示所述第i节点与所述第j节点之间的关联权重，N为所述第二类节点的数量，j、M和N均为正整数。

7.根据权利要求5所述的方法，其中，所述第二类节点中任意的第j节点的联系分数S_j(a)是通过以下等式来表示的，j为小于或等于N的正整数，N为所述第二类节点的数量：

i为小于或等于M的正整数

其中，R_i表示所述第一类节点中的第i节点的评分，w_ij表示所述第i节点与所述第j节点之间的关联权重，M为所述第一类节点的数量。

8.根据权利要求1至3中任一项所述的方法，其中，基于所述多个节点的来源分数以及所述多个节点的联系分数，分别确定所述多个节点的评分，包括：

对于所述多个节点中的每个节点，基于预定权重将该节点的来源分数和该节点的联系分数进行加权求和，以得到该节点的评分。

9.根据权利要求1至3中任一项所述的方法，其中，确定参与过广告位访问的多个节点，包括：

基于在预定时段内的广告位访问日志数据来确定所述多个节点，其中，所述多个节点包括所述广告位访问日志数据中记录的节点；或者

基于所述广告位访问日志数据以及预先定义的无效节点名单来确定所述多个节点，其中，所述多个节点包括所述广告位访问日志数据中记录的节点以及来自所述无效节点名单的节点。

10.一种用于广告业务中的无效流量信息处理的装置，包括：

节点确定单元，用于确定参与过广告位访问的多个节点，所述多个节点包括第一类节点和第二类节点，所述第一类节点分别代表不同的互联网协议IP地址，所述第二类节点分别代表不同的用户设备；

识别单元，用于确定所述多个节点是否为初始无效节点；

分数确定单元，用于基于所述多个节点是否为初始无效节点，分别确定所述多个节点的来源分数；

评分确定单元，用于基于所述多个节点的来源分数以及所述多个节点的联系分数，分别确定所述多个节点的评分，以便用于广告业务中的无效流量识别，其中，每个节点的评分表征该节点为无效流量节点的概率，其中：

11.根据权利要求10所述的装置，其中，所述识别单元进一步用于：

对于所述多个节点中任意的第k节点，k为正整数：

12.根据权利要求11所述的装置，其中，所述识别单元进一步用于：

13.根据权利要求10至12中任一项所述的装置，其中，所述分数确定单元进一步用于：

对于所述多个节点中的每个节点，

14.根据权利要求10至12中任一项所述的装置，其中，

15.根据权利要求14所述的装置，其中，所述第一类节点中任意的第i节点的联系分数R_i(a)是通过以下等式来表示的，其中，i为小于或等于M的正整数，M为所述第一类节点的数量：

j为小于或等于N的正整数

16.根据权利要求14所述的装置，其中，所述第二类节点中任意的第j节点的联系分数S_j(a)是通过以下等式来表示的，j为小于或等于N的正整数，N为所述第二类节点的数量：

i为小于或等于M的正整数

17.根据权利要求10至12中任一项所述的装置，其中，所述评分确定单元进一步用于：

18.根据权利要求10至12中任一项所述的装置，其中，所述节点确定单元进一步用于：

19.一种计算设备，包括：

至少一个处理器；

与所述至少一个处理器进行通信的存储器，其上存储有可执行代码，所述可执行代码在被所述至少一个处理器执行时使得所述至少一个处理器实现根据权利要求1至9中任一项所述的方法。

20.一种机器可读存储介质，其存储有可执行代码，所述可执行代码在被执行时使得机器执行根据权利要求1至9中任一项所述的方法。