CN105354249B

CN105354249B - 多账号关联方法、装置及电子设备

Info

Publication number: CN105354249B
Application number: CN201510673339.2A
Authority: CN
Inventors: 汤奇峰; 陈冰强
Original assignee: ZAMPLUS ADVERTISING (SHANGHAI) CO Ltd
Current assignee: ZAMPLUS ADVERTISING (SHANGHAI) CO Ltd
Priority date: 2015-10-16
Filing date: 2015-10-16
Publication date: 2019-03-26
Anticipated expiration: 2035-10-16
Also published as: CN105354249A

Abstract

一种多账号关联方法、装置及电子设备，多账号关联方法包括：获取用户网络行为的统一资源定位符URL信息；按照网络入口规则从所述URL信息中规则挖掘账号信息；过滤所述账号信息，剔除脏数据；对过滤后的所述账号信息基于所述URL信息和Refferer消息在设定的时间间隔生成Session；提取同一所述Session下的所述账号信息，生成具备关联关系的账号信息组；根据所述关联关系计算所述每个账号信息组的支持度和置信度；基于所述支持度和所述置信度对所述账号信息组进行图运算，生成所述关联关系的图像。所述多账号关联方法充分的挖掘了用户的互联网访问行为信息，提高了用户账号信息分类的准确性、完整性。

Description

多账号关联方法、装置及电子设备

技术领域

本发明涉及数据挖掘领域，尤其涉及一种多账号关联方法、装置及电子设备。

背景技术

随着大数据领域的不断扩张，互联网用户数据日益剧增。互联网用户的数据包括用户的年龄、性别、职业等用户信息，这些信息渗透在社交网络、电子商务等各大互联网领域，具备极大的经济价值，对定向精准地发布信息和资讯、预测用户行为、构建用户画像等，起着决定性的作用。

获取用户数据的前置条件，就是用户的挖掘与识别，现有技术通常基于同一个IP(Internet Protocol)或者IP和用户代理(User Agent)等粗粒度的关联规则，对网站储存在用户本地终端上的Cookie数据的身份信息(Identity,ID)和应用程序账号信息进行强制关联。

但是，由于网络互联的复杂多样性，同一用户往往具有多个网站的账号或者应用程序(Application,App)账号；且所述Cookie数据的ID信息和应用程序账号信息存在大量的脏数据；而且同一个IP或者IP和User Agent可能会被不同的上网用户所使用，造成关联规则不准确，进而无法精确的将同一用户的所有账号信息数据进行关联分类。

发明内容

本发明解决的技术问题是如何提高用户账号信息分类的准确性。

为解决上述技术问题，本发明实施例提供一种多账号关联方法，包括：

获取用户网络行为的统一资源定位符URL信息；

按照网络入口规则从所述URL信息中规则挖掘账号信息；

过滤所述账号信息，剔除脏数据；

对过滤后的所述账号信息基于所述URL信息和Refferer消息在设定的时间间隔生成Session；

提取同一所述Session下的所述账号信息，生成具备关联关系的账号信息组；

根据所述关联关系计算所述每个账号信息组的支持度和置信度；

基于所述支持度和所述置信度对所述账号信息组进行图运算，生成所述关联关系的图像。

可选的，所述账号信息包括应用程序账号和cookie ID信息。

可选的，所述过滤所述账号信息，剔除脏数据包括：

统计所述账号信息的数量、分布及比例并按照时间顺序进行序列化显示；

所述账号信息的数量大于设定阈值时，过滤所述账号信息。

可选的，所述对过滤后的所述账号信息基于所述URL信息和Refferer消息在设定的时间间隔生成Session，包括：

提取所述URL信息、所述账号信息和所述Refferer消息，并根据时间顺序进行排序；

在设定的时间阈值内，根据所述Refferer消息，将具备跳转关系的所述URL信息串联，形成所述Session。

可选的，所述账号信息组包括主账号和从账号；所述账号信息组的关联关系采用权重值表示，所述账号信息组出现一次，对应的所述权重值加一。

可选的，所述每个账号信息组的支持度为所述每个账号信息组的所述权重值与所述账号信息组的所述权重值的总和之比；

所述每个账号信息组的置信度为所述每个账号信息组的所述权重值与包含所述主账号的所述账号信息组的所述权重值的总和之比；

可选的，所述网络入口规则包括IP、所述IP和浏览器的User Agent、上网账号以及所述上网账号和所述浏览器的User Agent。

为解决上述技术问题，本发明实施例还公开了一种多账号关联装置，所述多账号关联装置包括：

采集模块，用于获取用户网络行为的统一资源定位符URL信息；

账号挖掘模块，耦接所述采集模块，用于按照网络入口规则从所述URL信息中规则挖掘账号信息；

清洗模块，耦接所述账号挖掘模块，用于过滤所述账号信息，剔除脏数据；

Session生成模块，耦接所述清洗模块，用于对过滤后的所述账号信息基于所述URL信息和Refferer消息在设定的时间间隔生成Session；

账号信息组生成模块，耦接所述Session生成模块，提取同一所述Session下的所述账号信息，生成具备关联关系的账号信息组；

参数计算模块，耦接所述账号信息组生成模块，用于根据所述关联关系计算所述每个账号信息组的支持度和置信度；

图像生成模块，耦接所述参数计算模块，用于基于所述支持度和所述置信度对所述账号信息组进行图运算，生成所述关联关系的图像。

可选的，所述清洗模块包括：

所述账号信息的数量大于设定阈值时，过滤所述账号信息。

可选的，Session生成模块包括：提取所述URL信息、所述账号信息和所述Refferer消息，并根据时间顺序进行排序；

可选的，所述账号信息组生成模块包括：生成的所述账号信息组包括主账号和从账号；所述账号信息组的关联关系采用权重值表示，所述账号信息组出现一次，对应的所述权重值加一。

本发明实施例还公开了一种电子设备，所述电子设备配置有所述多账号关联装置。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

本发明实施例通过将挖掘到的账号信息进行过滤，剔除了大量的网络脏数据；结合URL信息和Refferer消息生成Session，提取同一Session下的账号信息，生成具备关联关系的账号信息组，并通过计算每个账号信息组的支持度和置信度，将同一用户的多类型账号进行关联，提高了用户账号信息分类的准确性、完整性。

进一步，本发明实施例通过采用IP和浏览器的User Agent、上网账号以及上网账号和浏览器的User Agent的多类型网络入口规则挖掘账号信息，充分的挖掘了用户的互联网访问行为信息，提高了用户账号信息的丰富性。

附图说明

图1是本发明实施例一种多账号关联方法流程图；

图2是本发明实施例一种过滤账号信息方法流程图；

图3是本发明实施例一种Session生成方法流程图；

图4是本发明实施例一种多账号关联方法生成的关联关系的图像示意图；

图5是本发明实施例一种多账号关联装置示意图。

具体实施方式

如背景技术中所述，由于网络互联的复杂多样性，同一用户往往具有多个网站的账号或者应用程序(Application,App)账号；且所述cookie数据的ID信息和应用程序账号信息存在大量的脏数据，同一个IP或者IP和User Agent很可能会被不同的上网用户所使用，造成关联规则不准确，进而无法精确的将同一用户的所有账号信息数据进行关联分类。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例一种多账号关联方法流程图。

请参照图1，本发明实施例的多账号关联方法包括：步骤S101，获取用户网络行为的统一资源定位符URL信息。

本实施例中，统一资源定位符(Uniform/Universal Resource Locator,URL)是互联网上信息资源的地址，采用URL信息可以用一种统一的格式来描述各种信息资源，包括文件、服务器的地址和目录等，可以根据URL信息在互联网上得到信息资源的位置和访问方法。互联网上的每个文件都有一个唯一的URL，用户在互联网的每个上网行为会生成对应的URL信息。

步骤S102，按照网络入口规则从所述URL信息中规则挖掘账号信息。

本实施例中，所述网络入口规则为IP和浏览器的User Agent。其中，IP表示互联网协议地址(Internet Protocol Address,IP Address)。IP地址是IP协议提供的一种统一的地址格式，为互联网上的每一个网络和每一台主机分配一个逻辑地址，以此来屏蔽物理地址的差异，所以IP地址具有唯一性。用户代理User Agent是一种对数据打包、创造分组头，以及编址、传递消息的部件。利用IP地址的唯一性和浏览器的User Agent的用户网络行为信息，将两者结合进行账号信息的挖掘，充分的挖掘了用户的互联网访问行为信息，提高了用户账号信息的丰富性。

可以理解的是，所述网络入口规则还可以是IP、上网账号或者上网账号和所述浏览器的User Agent结合使用。

本实施例中，用户网络行为的URL信息的数量以一整天的数据量为基础，所述数据量可以覆盖用户全部上网行为时间。

需要说明的是，用户网络行为的统一资源定位符URL信息的数量可以根据实际情况做适应性调整。

如表1所示，为本发明实施例的多账号关联方法在上海地区挖掘到的部分不同账号的统计分布情况。

表1

其中，编号66代表的账号类型为微博，IP数量表示具备对应微博账号数量的IP地址数量,上海地区同时登录微博账号的IP总数量为346288，IP占比表示IP数量与所述IP总数量的比值；编号67代表的账户类型为QQ，IP数量表示具备对应QQ账号数量的IP地址数量，上海地区同时登录QQ账号的IP总数量为1654079，IP占比表示IP数量与所述IP总数量的比值；编号68代表的账户类型为百度，IP数量表示具备对应百度账号数量的IP地址数量，上海地区同时登录百度账号的IP总数量244906，IP占比表示IP数量与所述IP总数量的比值。

本实施例中，百度账号信息是通过Cookie信息挖掘的。Cookie信息是网站为了辨别用户身份而储存在用户本地终端上的数据。

步骤S103，过滤所述账号信息，剔除脏数据。

步骤S104，对过滤后的所述账号信息基于所述URL信息和Refferer消息在设定的时间间隔生成Session。

步骤S105，提取同一所述Session下的所述账号信息，生成具备关联关系的账号信息组。

本实施例中，账号信息组包括主账号和从账号；所述账号信息组的关联关系采用权重值表示，所述账号信息组出现一次，对应的所述权重值加一。

步骤S106，根据所述关联关系计算所述每个账号信息组的支持度和置信度。

本实施例中，每个账号信息组的支持度为所述每个账号信息组的所述权重值与所述账号信息组的所述权重值的总和之比；所述每个账号信息组的置信度为所述每个账号信息组的所述权重值与包含所述主账号的所述账号信息组的所述权重值的总和之比。

如表2所示，表2为网络入口规则为IP和浏览器的User Agent时得到的账号信息组的关联关系图。

账号信息组	权重值	支持度	置信度
				QQ1-微博1	10	0.1	1
QQ2-微博2	20	0.2	0.4
				QQ2-微博3	30	0.3	0.6
QQ2-百度1	40	0.4	1

表2

其中，所有账号信息组的权重值的总和为100，以QQ作为账号信息组的主账号。账号信息组QQ1-微博1的权重值为10，支持度为10/100，即0.1；置信度为10/10，即1；账号信息组QQ2-微博2的权重值为20，支持度为20/100，即0.2；置信度为20/50，即0.4；账号信息组QQ2-微博3的权重值为30，支持度为30/100，即0.3；置信度为30/50，即0.6；账号信息组QQ2-百度2的权重值为40，支持度为40/100，即0.4；置信度为40/40，即1。

步骤S107，基于所述支持度和所述置信度对所述账号信息组进行图运算，生成所述关联关系的图像。

图4是本发明实施例一种多账号关联方法生成的关联关系的图像示意图。根据图4可以看出不同类型账号之间的关联关系。

本实施例中，QQ1、QQ2、QQ3、微博1、微博2和百度为不同类型的账号，S表示支持度，C表示置信度。每两个账号之间有连接线表示所述两个账号为一组账号信息组，具备一定的关联关系。

本实施例中，QQ1和微博1的支持度为0.9，置信度为0.8；QQ1和微博2的支持度为0.6，置信度为0.9；微博1和百度的支持度为0.7，置信度为0.2；QQ2和微博3的支持度为0.5，置信度为0.9。

本实施例中，将账号信息组的图像信息录入到图像数据库中储存。在使用时可以根据所述账号信息组的支持度和置信度进行筛选。在同一账号关联多个其他类型的账号时，可以通过计算支持度和置信度的积筛选出具有较高关联度的账号信息组。

具体实施中，QQ1同时和微博1、微博2具备关联关系，QQ1和微博1支持度和置信度的积为0.72，QQ1和微博2支持度和置信度的积为0.54，所以QQ1和微博1的关联度更高。

需要说明的是，图4所示账号信息组的关联关系的图像仅为示例，所述图像可以为任意可实施的可视化图像，本发明实施例对此不做限制。

本发明实施例的多账号关联方法相对于现有技术的账号关联方法，提高了识别出的用户数量提高，同时提高了多账号关联的准确度。

图2是本发明实施例一种过滤账号信息方法流程图。

请参照图2，过滤账号信息方法在步骤S102按照网络入口规则从所述URL信息中规则挖掘账号信息后。

所述过滤账号信息方法包括：步骤S201，统计所述账号信息的数量、分布及比例并按照时间顺序进行序列化显示。

步骤S202，所述账号信息的数量大于设定阈值时，过滤所述账号信息。

请参照表1，每个IP账号数量有1-13，选取设定阈值为5，从表1的原始数据中剔除掉账号数量大于5对应的账号信息，剩下的账号信息数据为可信数据。

表3为过滤后的账号信息统计分布情况。

表3

本实施例中，设定阈值为符合实际需求的账号阀值，阀值越小数据越准确，但是覆盖率会下降。所述设定阈值可以由用户根据实际情况进行调整。

图3是本发明实施例一种Session生成方法流程图。

Session生成方法在步骤S103过滤所述账号信息，剔除脏数据后。

所述Session生成方法包括，步骤S301，提取所述URL信息、所述账号信息和所述Refferer消息，并根据时间顺序进行排序。

本实施例中，Referer表示先前网页的地址，当前请求网页紧随其后。Referer是header的一部分，当浏览器向web服务器发送请求时，服务器可以通过Refferer消息获取跳转前页面地址，服务器获得跳转信息用于处理。

步骤S302，在设定的时间阈值内，根据所述Refferer消息，将具备跳转关系的所述URL信息串联，形成所述Session。

本实施例中，Session表示用户在浏览网站时，从进入网站到关闭这个网站所经过的时间，也就是用户浏览网站所花费的时间。一个Session的概念需要包括特定的客户端，特定的服务器端以及不中断的操作时间。

表4为Session按时间分布情况。

表4

请参照表4，本实施例中，设定的时间阈值为30min。第一Session S1的终止时间值为2015年08月27日08:30，下一跳转时间值为2015年08月27日09:50，时间间隔大于30min，故时间值2015年08月27日09:50为第二Session S2的开始时间值。以此类推，得到第三Session S3和第四Session S4。

可以理解的是，所述设定时间阈值可以由用户根据实际情况进行调整。

根据表4可以得到账号信息组的关联关系表，如表5所示。

表5

请参照表5，本实施例中，账号信息组1UserID1-cookie ID1在表4中出现了一次，故权重值为1；账号信息组2UserID1-UserID2在表4中出现了一次，故权重值为1；账号信息组3-8依此类推，得到相应的权重值。

本发明实施例还公开了一种多账号关联装置，图5是本发明实施例一种多账号关联装置示意图。

请参照图5，所述多账号关联装置包括：采集模块501，用于获取用户网络行为的统一资源定位符URL信息。

账号挖掘模块502，耦接所述采集模块501，用于按照网络入口规则从所述URL信息中规则挖掘账号信息。

清洗模块503，耦接所述账号挖掘模块502，用于过滤所述账号信息，剔除脏数据。

本实施例中，清洗模块503包括：统计所述账号信息的数量、分布及比例并按照时间顺序进行序列化显示；所述账号信息的数量大于设定阈值时，过滤所述账号信息。

Session生成模块504，耦接所述清洗模块503，用于对过滤后的所述账号信息基于所述URL信息和Refferer消息在设定的时间间隔生成Session。

本实施例中，Session生成模块504包括：提取所述URL信息、所述账号信息和所述Refferer消息，并根据时间顺序进行排序；在设定的时间阈值内，根据所述Refferer消息，将具备跳转关系的所述URL信息串联，形成所述Session。

账号信息组生成模块505，耦接所述Session生成模块504，提取同一所述Session下的所述账号信息，生成具备关联关系的账号信息组。

本实施例中，所述账号信息组生成模块505包括：生成的所述账号信息组包括主账号和从账号；所述账号信息组的关联关系采用权重值表示，所述账号信息组出现一次，对应的所述权重值加一。

参数计算模块506，耦接所述账号信息组生成模块505，用于根据所述关联关系计算所述每个账号信息组的支持度和置信度。

图像生成模块507，耦接所述参数计算模块506，用于基于所述支持度和所述置信度对所述账号信息组进行图运算，生成所述关联关系的图像。

具体实施方式可参考前述相关实施例，此处不再赘述。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种多账号关联方法，其特征在于，包括：

获取用户网络行为的统一资源定位符URL信息；

按照网络入口规则从所述URL信息中规则挖掘账号信息，所述网络入口规则包括IP、IP和浏览器的User Agent的结合、上网账号或上网账号和浏览器的User Agent的结合；

过滤所述账号信息，剔除脏数据；

根据所述关联关系计算每个所述账号信息组的支持度和置信度；

基于所述支持度和所述置信度对所述账号信息组进行图运算，生成所述关联关系的图像；

其中，所述账号信息组包括主账号和从账号；所述账号信息组的关联关系采用权重值表示，所述账号信息组出现一次，对应的所述权重值加一；每个所述账号信息组的支持度为每个所述账号信息组的所述权重值与所述账号信息组的所述权重值的总和之比；每个所述账号信息组的置信度为每个所述账号信息组的所述权重值与包含所述主账号的所述账号信息组的所述权重值的总和之比。

2.根据权利要求1所述的多账号关联方法，其特征在于，所述账号信息包括应用程序账号和cookie ID信息。

3.根据权利要求1所述的多账号关联方法，其特征在于，所述过滤所述账号信息，剔除脏数据包括：

统计所述账号信息的数量、分布及比例，并按照时间顺序进行序列化显示；

所述账号信息的数量大于设定阈值时，过滤所述账号信息。

4.根据权利要求1所述的多账号关联方法，其特征在于，所述对过滤后的所述账号信息基于所述URL信息和Refferer消息在设定的时间间隔生成Session，包括：

5.一种多账号关联装置，其特征在于，包括：

账号挖掘模块，耦接所述采集模块，用于按照网络入口规则从所述URL信息中规则挖掘账号信息，所述网络入口规则包括IP、IP和浏览器的User Agent的结合、上网账号或上网账号和浏览器的User Agent的结合；

参数计算模块，耦接所述账号信息组生成模块，用于根据所述关联关系计算每个所述账号信息组的支持度和置信度；

图像生成模块，耦接所述参数计算模块，用于基于所述支持度和所述置信度对所述账号信息组进行图运算，生成所述关联关系的图像；

其中，所述账号信息组生成模块包括：生成的所述账号信息组包括主账号和从账号；所述账号信息组的关联关系采用权重值表示，所述账号信息组出现一次，对应的所述权重值加一；每个所述账号信息组的支持度为每个所述账号信息组的所述权重值与所述账号信息组的所述权重值的总和之比；每个所述账号信息组的置信度为每个所述账号信息组的所述权重值与包含所述主账号的所述账号信息组的所述权重值的总和之比。

6.根据权利要求5所述的多账号关联装置，其特征在于，所述清洗模块包括：

所述账号信息的数量大于设定阈值时，过滤所述账号信息。

7.根据权利要求5所述的多账号关联装置，其特征在于，所述Session生成模块包括：

8.一种电子设备，其特征在于，包括如权利要求5—7任一项所述的多账号关联装置。