CN112417228B

CN112417228B - 一种ip相似度计算方法、装置、电子设备及存储介质

Info

Publication number: CN112417228B
Application number: CN202110085060.8A
Authority: CN
Inventors: 张贵川
Original assignee: Beijing Minglue Zhaohui Technology Co Ltd
Current assignee: Beijing Minglue Zhaohui Technology Co Ltd
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2021-07-06
Anticipated expiration: 2041-01-22
Also published as: CN112417228A

Abstract

本申请实施例提供一种IP相似度计算方法、装置、电子设备及存储介质，涉及数据处理技术领域。该方法包括获取对用户行为的监测数据并对所述监测数据进行预处理，以获取三元组集合；利用所述三元组集合构建图结构，以获取两个IP之间的邻接矩阵；根据所述邻接计算两个IP之间的IP相似度，具有较高精度且普适性强，解决现有方法准确度不高且适用度不高的问题。

Description

一种IP相似度计算方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种IP相似度计算方法、装置、电子设备及存储介质。

背景技术

现有的IP相似度计算方法仅仅通过重合位数进行计算，不仅不够准确而且还具有区域性的限制，无法体现用户活动信息，在大部分涉及用户行为的计算场景上基本无法使用。

发明内容

本申请实施例的目的在于提供一种IP相似度计算方法、装置、电子设备及存储介质，具有较高精度且普适性强，解决现有方法准确度不高且适用度不高的问题。

本申请实施例提供了一种IP相似度计算方法，所述方法包括：

获取对用户行为的监测数据并对所述监测数据进行预处理，以获取三元组集合；

利用所述三元组集合构建图结构，以获取两个IP之间的邻接矩阵；

根据所述邻接矩阵计算两个IP之间的IP相似度。

在上述实现过程中，监测数据反映了用户的行为信息，通过融入用户行为信息的IP相似度，更能够体现两个IP之间的丰富的人群活动信息，在监测场景下使用更有意义，精确度更高。

进一步地，所述监测数据包括用户ID、IP和浏览当前被监测目标的时刻，所述获取用户的监测数据并对所述监测数据进行预处理，以获取三元组集合，包括：

对所述监测数据进行过滤，以保留用户多次浏览当前被监测目标对应的数据同时具有IP字段的监测数据；

获取所述监测数据中的每个用户ID的IP字段和对应的时刻，并将所述IP字段按照对应时刻的从小到大的时间序进行排序，并生成三元组序列（用户ID，IP字段，时刻）；

基于从小到大的时间序对每个用户ID的所述三元组序列进行处理以生成所述三元组集合。

在上述实现过程中，对监测数据进行过滤，再从中抽取每个用户ID对应的三元组序列，该三元组序列可反映出用户在各个时刻使用不同的IP浏览当前被监测目标的时刻，因此可以反映用户的活动信息，从而可以根据三元组序列获得三元组集合。

进一步地，所述基于从小到大的时间序对每个用户ID的所述三元组序列进行处理以生成所述三元组集合，包括：

将每个用户ID对应的IP字段按照所述时间序进行排序并将每两个相邻时刻对应的IP字段组成一组前序IP和目标IP；

基于前序IP和目标IP获取对应的权重，所述权重为转换成二进制后的前序IP和目标IP的相同位数占总位数的比值加1；

将所有用户ID的前序IP、目标IP和权重进行组合，以生成所述三元组集合（前序IP，目标IP，权重）；

所述三元组集合表示为：

其中，P_IP表示前序IP，P_IP表示目标IP，N表示从每个用户ID得到的三元组集合的总数，i取从1到N的整数。

在上述实现过程中，按照时间顺序将相邻的两个IP字段组成一组前序IP和目标IP，即时刻小的IP字段为前序IP，时刻大的IP字段为目标IP，从而实现两个IP之间的分组，并根据前序IP和目标IP的IP字段计算对应的权重。

所述利用所述三元组集合构建图结构，以获取两个IP之间的邻接矩阵，包括：

将所述三元组集合中的前序IP相同且目标IP相同的权重相加，以聚合生成新三元组集合，所述新三元组集合表示为：

其中，m表示前序IP相同且目标IP相同的权重个数；M表示聚合之后的前序IP或目标IP的个数；j取从1到m的整数；

将所述新三元组集合中的所有前序IP和目标IP生成IP集合并将所述IP集合中的每个元素作为所述图结构的顶点，将所述新三元组集合作为连接边，以生成所述图结构，所述图结构表示为：

G=(V,E2)；

其中，V表示IP集合；

基于所述图结构获取邻接矩阵，所述邻接矩阵中的元素为所述新三元组集合中的权重值。

在上述实现过程中，利用图结构G可获得对应的邻接矩阵，该邻接矩阵中的元素值为新三元组集合E2中的元素值。

进一步地，所述根据所述邻接矩阵计算两个IP之间的IP相似度，包括：

将所述邻接矩阵中的每个元素按行进行归一化，以得到两个IP之间的IP相似度，所述IP相似度表示为：

其中，A _ij表示所述邻接矩阵第i行第j列对应的元素值，n表示所述邻接矩阵的列数即为所述图结构的顶点个数，k取从1到n的整数。

在上述实现过程中，通过对每行元素进行归一化处理，从而得到两个IP之间的IP相似度，通过融入用户行为信息的IP相似度具有更高的精度。

本申请实施例还提供一种IP相似度计算装置，所述装置包括：

三元组集合获取模块，用于获取对用户行为的监测数据并对所述监测数据进行预处理，以获取三元组集合；

建图模块，用于利用所述三元组集合构建图结构，以获取两个IP之间的邻接矩阵；

相似度计算模块，用于根据所述邻接矩阵计算两个IP之间的IP相似度。

在上述实现过程中，根据针对用户的监测数据来获取两个IP之间的IP相似度，监测数据反映了用户的行为信息，因此通过融入用户行为信息的IP相似度，精确度更高。

进一步地，所述监测数据包括用户ID、IP和浏览当前被监测目标的时刻，所述三元组集合获取模块包括：

数据过滤模块，用于对所述监测数据进行过滤，以保留用户多次浏览当前被监测目标对应的数据同时具有IP字段的监测数据；

三元组序列生成模块，用于获取所述监测数据中的每个用户ID的IP字段和对应的时刻，并将所述IP字段按照对应时刻的从小到大的时间序进行排序，并生成三元组序列（用户ID，IP字段，时刻）；

集合生成模块，用于基于从小到大的时间序对每个用户ID的所述三元组序列进行处理以生成所述三元组集合。

在上述实现过程中，通过对用户的监测数据进行处理，从而得到包含两个IP权重的三元组集合。

进一步地，所述集合生成模块包括：

排序模块，用于将每个用户ID对应的IP字段按照所述时间序进行排序并将每两个相邻时刻对应的IP字段组成一组前序IP和目标IP；

权重计算模块，用于基于前序IP和目标IP获取对应的权重，所述权重为转换成二进制后的前序IP和目标IP的相同位数占总位数的比值加1；

三元组集合获取模块，用于将所有用户ID的前序IP、目标IP和权重进行组合，以生成所述三元组集合（前序IP，目标IP，权重）；

所述三元组集合表示为：

在上述实现过程中，给出了三元组集合的具体还算过程，可得到两个IP之间的权重。

本申请实施例还提供一种电子设备，所述电子设备包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行上述中任一项所述的IP相似度计算方法。

本申请实施例还提供一种可读存储介质，所述可读存储介质中存储有计算机程序指令，所述计算机程序指令被一处理器读取并运行时，执行上述中任一项所述的IP相似度计算方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种IP相似度计算方法的流程图；

图2为本申请实施例提供的获取三元组集合的流程图；

图3为本申请实施例提供的生成三元组集合的具体流程图；

图4为本申请实施例提供的构建图结构并生成邻接矩阵的流程图；

图5为本申请实施例提供的一种图结构示意图；

图6为本申请实施例提供的IP相似度计算装置的结构框图；

图7为本申请实施例提供的IP相似度计算装置的具体结构框图。

图标：

100-三元组集合获取模块；110-数据过滤模块；120-三元组序列生成模块；130-集合生成模块；131-排序模块；132-权重计算模块；133-三元组集合模块；200-建图模块；201-新三元组集合模块；202-图结构模块；203-邻接矩阵获取模块；300-相似度计算模块。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

实施例1

请参看图1，图1为本申请实施例提供的一种IP相似度计算方法的流程图。该方法可以通过对IP相似度的精确计算，具有广泛的现实意义，如可以应用于IP分类从而进行区域划分如社区、商圈等，从而可以实现广告的精准投放，对于其应用范围在此不作限定。

现有的方法多是通过计算IP的bit位的连续相同位数占总位数的比值来计算IP相似度，如：

192.168.1.104=(11000000.10101000.00000001.01101000)；

192.168.32.121=(11000000.10101000.00100000.01111001)；

则重叠位数为18，一个IP总的可用32位bit表示，IP相似度可以表示为：18/32=0.5625。

该方法只采用简单的比值表示IP相似度，无法体现用户活动信息，因此结果不够精确，且使用范围受限。

基于上述问题，本申请所使用方法通过融入用户行为信息的IP相似度，更能够表现出两个IP之间的丰富的人群活动信息，在监测场景下使用更有意义，精确度也更高。

该方法具体包括以下步骤：

步骤S100：获取对用户行为的监测数据并对所述监测数据进行预处理，以获取三元组集合；

具体地，如图2所示，为获取三元组集合的流程图，该步骤具体可以包括：

步骤S110：对所述监测数据进行过滤，以保留用户多次浏览当前被监测目标对应的数据同时具有IP字段的监测数据；

监测数据包括用户ID、IP和浏览当前被监测目标的时刻，如用户打开网站推送的广告弹窗，则后台可获得用户点击广告弹窗的用户ID、IP地址以及打开该广告弹窗的时刻，在不同的地点如家里或公司点击广告弹窗时，对应的IP地址和时刻将会发生变化，可以基于该变化对监测数据进行过滤和处理。

在用户点击广告弹窗的过程中，获得监测数据，对监测数据进行过滤，过滤掉只有一条行为的数据如用户只浏览过一次广告弹窗和没有IP字段的数据，从而保留排除上述情况后的监测数据。

步骤S120：获取所述监测数据中的每个用户ID的IP字段和对应的时刻，并将所述IP字段按照对应时刻的从小到大的时间序进行排序，并生成三元组序列（用户ID，IP字段，时刻）；

示例地，将每个用户ID的IP字段按照时刻从小到大的顺序进行排序，并生成对应的三元组序列如可以表示为（id，ip，t），如早上在家、中午在公司分别浏览过广告弹窗，可以基于浏览时间将三元组序列进行从早上到中午（从小到大）进行排序，因此，在基于排序后的三元组序列在计算IP相似度的过程中，融合了用户的行为信息，使得得到的IP相似度具有较高的准确性，在用户行为挖掘等后续任务上能够提供更加准确的支持，例如可以进行区域性的广告精准投放。

步骤S130：基于从小到大的时间序对每个用户ID的所述三元组序列进行处理以生成所述三元组集合。

如图3所示，为生成三元组集合的具体流程图，该步骤具体可以包括：

步骤S131：将每个用户ID对应的IP字段按照所述时间序进行排序并将每两个相邻时刻对应的IP字段组成一组前序IP和目标IP；

示例地，排序后的三元组序列分别为：

（id1，ip1，t1）；

（id2，ip2，t2）；

（id3，ip3，t3）；

将相邻的两组三元组序列中的IP字段分别作为前序IP和目标IP，则三元组序列可以组成的三元组集合为：（ip1，ip2，w1），（ip2，ip3，w2）。

步骤S132：基于前序IP和目标IP获取对应的权重，所述权重为转换成二进制后的前序IP和目标IP的相同位数占总位数的比值加1；

示例地，同一用户的两个行为对应的三元组序列分别为：{(ID,192.168.1.104,T1),(ID,192.168.32.121,T2)}；

则前序IP为：192.168.1.104=11000000.10101000.00000001.01101000；

目标IP为：192.168.32.121=11000000.10101000.00100000.01111001；

则由上述可知，转换成二进制后的前序IP和目标IP的相同位数为18，一个IP字段可用32位bit表示，因此，权重的比值为：18/32=0.5625；则三元组集合中的权重值为1+0.5625=1.5625；则生成的一个三元组集合为：{(192.168.1.104,192.168.32.121,1.5625)}。

步骤S133：将所有用户ID的前序IP、目标IP和权重进行组合，以生成所述三元组集合（前序IP，目标IP，权重）；

所述三元组集合表示为：

步骤S200：利用所述三元组集合构建图结构，以获取两个IP之间的邻接矩阵；

如图4所示，为构建图结构并生成邻接矩阵的流程图，该步骤具体可以包括：

步骤S201：将所述三元组集合中的前序IP相同且目标IP相同的权重相加，以聚合生成新三元组集合，所述新三元组集合表示为：

其中，m表示前序IP相同且目标IP相同的权重个数；M表示聚合之后集合中总的三元组个数；j取从1到m的整数；

根据三元组集合（前序IP，目标IP，权重），根据三元组集合中的前序IP和目标IP做聚合，将聚合分组中的所有权重值相加，例如三元组集合为：

（ip1，ip2，w1）；

（ip1，ip2，w2）；

（ip1，ip3，w3）；

（ip1，ip3，w4）；

聚合后生成的新三元组集合为：（ip1，ip2，w1+w2），（ip1，ip3，w3+w4）。

步骤S202：将所述新三元组集合中的所有前序IP和目标IP生成IP集合并将所述IP集合中的每个元素作为所述图结构的顶点，将所述新三元组集合作为连接边，以生成所述图结构，所述图结构表示为：

G=(V,E2)；

其中，所述V表示IP集合；

如图5所示，为一种图结构示意图，其中的A、B和C均为顶点，两个顶点之间的连接边为新三元组集合。对于V表示的IP集合，示例地，上述新三元组集合（ip1，ip2，w1+w2），（ip1，ip3，w3+w4）对应生成的IP集合为（ip1，ip2，ip3），相应地，图结构具有3个顶点。

步骤S203：基于所述图结构获取邻接矩阵，所述邻接矩阵中的元素为所述新三元组集合中的权重值。

步骤S300：根据所述邻接矩阵计算两个IP之间的IP相似度。

具体地，将所述邻接矩阵（表示为A）中的每个元素按行进行归一化，以得到关联度权重矩阵即为两个IP之间的IP相似度，所述IP相似度表示为：

将每行的每个元素分别处以对应行的所有元素之和，从而得到归一化后的IP相似度。

实施例2

本申请实施例提供一种IP相似度计算装置，如图6所示，为IP相似度计算装置的结构框图，所述装置包括：

三元组集合获取模块100，用于获取对用户行为的监测数据并对所述监测数据进行预处理，以获取三元组集合；

建图模块200，用于利用所述三元组集合构建图结构，以获取两个IP之间的邻接矩阵；

相似度计算模块300，用于根据所述邻接矩阵计算两个IP之间的IP相似度。

其中，如图7所示，为IP相似度计算装置的具体结构框图，所述监测数据包括用户ID、IP和浏览当前被监测目标的时刻，所述三元组集合获取模块100包括：

数据过滤模块110，用于对所述监测数据进行过滤，以保留用户多次浏览当前被监测目标对应的数据同时具有IP字段的监测数据；

三元组序列生成模块120，用于获取所述监测数据中的每个用户ID的IP字段和对应的时刻，并将所述IP字段按照对应时刻的从小到大的时间序进行排序，并生成三元组序列（用户ID，IP字段，时刻）；

集合生成模块130，用于基于从小到大的时间序对每个用户ID的所述三元组序列进行处理以生成所述三元组集合。

所述集合生成模块130包括：

排序模块131，用于将每个用户ID对应的IP字段按照所述时间序进行排序并将每两个相邻时刻对应的IP字段组成一组前序IP和目标IP；

权重计算模块132，用于基于前序IP和目标IP获取对应的权重，所述权重为转换成二进制后的前序IP和目标IP的相同位数占总位数的比值加1；

三元组集合模块133，用于将所有用户ID的前序IP、目标IP和权重进行组合，以生成所述三元组集合（前序IP，目标IP，权重）；

所述三元组集合表示为：

建图模块200包括：

新三元组集合模块201，用于将所述三元组集合中的前序IP相同且目标IP相同的权重相加，以聚合生成新三元组集合，所述新三元组集合表示为：

其中，m表示前序IP相同且目标IP相同的权重个数；M表示聚合之后的前序IP或目标IP的个数；

图结构模块202，用于将所述新三元组集合中的所有前序IP和目标IP生成IP集合并将所述IP集合中的每个元素作为所述图结构的顶点，将所述新三元组集合作为连接边，以生成所述图结构，所述图结构表示为：

G=(V,E2)；

其中，所述V表示IP集合；

邻接矩阵获取模块203，用于基于所述图结构获取邻接矩阵，所述邻接矩阵中的元素为所述新三元组集合中的权重值。

本申请实施例还提供一种电子设备，所述电子设备包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行实施例1中任一项所述的IP相似度计算方法。

本申请实施例还提供一种可读存储介质，所述可读存储介质中存储有计算机程序指令，所述计算机程序指令被一处理器读取并运行时，执行实施例1任一项所述的IP相似度计算方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种IP相似度计算方法，其特征在于，所述方法包括：

利用所述三元组集合构建图结构，以获取两个IP之间的邻接矩阵：

其中，P_IP _i表示前序IP，T_IP _i表示目标IP，m表示前序IP相同且目标IP相同的权重个数；M表示聚合之后的前序IP或目标IP的个数；j取从1到m的整数，w _j表示权重；

G=(V,E2)；

其中，V表示IP集合，E2表示连接边集合；

基于所述图结构获取邻接矩阵，所述邻接矩阵中的元素为所述新三元组集合中的权重值，其中，将用户的IP字段按照对应时刻的从小到大的时间序进行排序后每两个相邻时刻的IP字段分别为前序IP和目标IP；

根据所述邻接矩阵计算两个IP之间的IP相似度。

2.根据权利要求1所述的IP相似度计算方法，其特征在于，所述监测数据包括用户ID、IP和浏览当前被监测目标的时刻，所述获取对用户行为的监测数据并对所述监测数据进行预处理，以获取三元组集合，包括：

3.根据权利要求2所述的IP相似度计算方法，其特征在于，所述基于从小到大的时间序对每个用户ID的所述三元组序列进行处理以生成所述三元组集合，包括：

所述三元组集合表示为：

其中，P_IP _i表示前序IP，T_IP _i表示目标IP，N表示从每个用户ID得到的三元组集合的总数，i取从1到N的整数，w _i表示权重。

4.根据权利要求1所述的IP相似度计算方法，其特征在于，所述根据所述邻接矩阵计算两个IP之间的IP相似度，包括：

5.一种IP相似度计算装置，其特征在于，所述装置包括：

所述建图模块包括：

新三元组集合模块，用于将所述三元组集合中的前序IP相同且目标IP相同的权重相加，以聚合生成新三元组集合，所述新三元组集合表示为：

图结构模块，用于将所述新三元组集合中的所有前序IP和目标IP生成IP集合并将所述IP集合中的每个元素作为所述图结构的顶点，将所述新三元组集合作为连接边，以生成所述图结构，所述图结构表示为：

G=(V,E2)；

其中，V表示IP集合，E2表示连接边集合；

邻接矩阵获取模块，用于基于所述图结构获取邻接矩阵，所述邻接矩阵中的元素为所述新三元组集合中的权重值，其中，将用户的IP字段按照对应时刻的从小到大的时间序进行排序后每两个相邻时刻的IP字段分别为前序IP和目标IP；

6.根据权利要求5所述的IP相似度计算装置，其特征在于，所述监测数据包括用户ID、IP和浏览当前被监测目标的时刻，所述三元组集合获取模块包括：

7.根据权利要求6所述的IP相似度计算装置，其特征在于，所述集合生成模块包括：

所述三元组集合表示为：

8.一种电子设备，其特征在于，所述电子设备包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行根据权利要求1至4中任一项所述的IP相似度计算方法。

9.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序指令，所述计算机程序指令被一处理器读取并运行时，执行权利要求1至4任一项所述的IP相似度计算方法。