CN103179188A

CN103179188A - 用户识别方法和装置

Info

Publication number: CN103179188A
Application number: CN2013100185446A
Authority: CN
Inventors: 薛洪贺; 罗峰; 黄苏支; 李娜
Original assignee: BEIJING IZP TECHNOLOGIES Co Ltd
Current assignee: Chongqing Kunpeng Payment Service Co.,Ltd.
Priority date: 2013-01-17
Filing date: 2013-01-17
Publication date: 2013-06-26
Anticipated expiration: 2033-01-17
Also published as: CN103179188B

Abstract

本发明提供了一种用户识别方法和装置，其中，用户识别方法包括：获取用户的访问信息，其中，所述访问信息包括：所述用户的IP地址、所述用户访问的网站的域名和所述用户访问的网站的COOKIE信息的关系对；根据所述用户的IP地址查询第一关系表，判断是否存在所述IP地址和所述关系对的对应关系，其中，所述第一关系表中存储有用户信息及与所述用户信息对应的网站的域名和网站的COOKIE信息关系对的信息，所述用户信息包括IP地址、用户标识；若存在，则根据所述用户的IP地址返回相对应的用户标识，根据返回的所述用户标识识别所述用户。通过本发明，服务器能够准确识别客户端和用户。

Description

用户识别方法和装置

技术领域

本发明涉及网络技术领域，特别是涉及一种用户识别方法和装置。

背景技术

目前随着互联网技术应用的越来越广泛，人们很多的日常工作和娱乐都在网络上进行。在很多网络应用场景下，用户在访问网络时，服务器通过客户端的IP地址来识别客户端和用户。但是，由于IP资源有限，而上网用户却越来越多，目前的宽带用户一般都使用动态IP，以避免用户不上网也占用宝贵的IP资源。

在这种情况下，服务器使用IP地址来识别客户端和用户就变得非常困难。以网盟为例，网盟是网站的广告联盟，通常指网络联盟营销，也称联属网络营销。网盟的出现，使得部分互联网广告公司可以借助网盟网站向用户投放广告，扩大了其广告投放渠道，真正意义上平衡了广告主、客户和网站营销平台三者的利益。目前，大多数的网盟营销平台分为两种情况，一种情况是网盟营销平台不设门户网站，根本没有数据量，由于没有数据量的支撑，并且通过动态IP也不能准确识别用户，因此只能向网盟网站投放普通广告，无法有针对性地向用户投放其感兴趣的广告，造成广告投放精度差；另一种情况是网盟营销平台通过从获取用户上下线（即IP-ADSL关系）信息来识别用户，以积累兴趣组数据，这一方面只能识别具有ADSL账号的用户，另一方面因IP地址变动使得信息数据量巨大且不准确，因此识别率非常低，也造成广告投放精度差。

可见，不论哪种情况，只有服务器能够准确识别客户端和用户，才能进行后续的高精度操作，如高精度投放广告等，以减低信息交互成本和信息交互量，提升用户对网络的访问体验。

发明内容

本发明提供了一种用户识别方法和装置，以解决现有技术的服务器不能够准确识别客户端和用户的问题。

为了解决上述问题，本发明公开了一种用户识别方法，包括：获取用户的访问信息，其中，所述访问信息包括：所述用户的IP地址、所述用户访问的网站的域名和所述用户访问的网站的COOKIE信息的关系对；根据所述用户的IP地址查询第一关系表，判断是否存在所述IP地址和所述关系对的对应关系，其中，所述第一关系表中存储有用户信息及与所述用户信息对应的网站的域名和网站的COOKIE信息关系对的信息，所述用户信息包括IP地址、用户标识；若存在，则根据所述用户的IP地址返回相对应的用户标识，根据返回的所述用户标识识别所述用户。

优选地，所述用户识别方法还包括：若所述第一关系表中不存在所述用户的IP地址，则根据所述关系对查询第二关系表，判断所述第二关系表中是否存在所述关系对，其中，所述第二关系表中存储有网站的域名和网站的COOKIE信息关系对与用户标识的对应关系信息；若存在，则将所述关系对和与其对应的用户标识，以及所述用户的IP地址插入到所述第一关系表中；并返回与所述关系对对应的用户标识，使用与所述关系对对应的用户标识识别所述用户。

优选地，在所述将所述关系对和与其对应的用户标识，以及所述用户的IP地址插入到所述第一关系表中的步骤之后，还包括：将插入到所述第一关系表中的所述用户的IP地址和所述对应的用户标识加入更新环形队列中；定时使用所述更新环形队列中的数据更新用户数据库中的数据，其中，所述用户数据库用于存储用户的IP地址及其对应的用户标识；或者，当所述更新环形队列满时，使用所述更新环形队列中的数据更新所述用户数据库中的数据。

优选地，所述用户信息还包括异常次数信息，所述异常次数信息用于表示所述第一关系表中存在所述IP地址和所述关系对中的网站的域名，但不存在所述用户访问的网站的COOKIE信息的次数；所述用户识别方法还包括：若所述异常次数信息指示的异常次数达到设定阈值，则查询第二关系表，判断所述第二关系表中是否存在所述关系对，其中，所述第二关系表中存储有网站的域名和网站的COOKIE信息关系对与用户标识的对应关系信息；若存在，则根据所述关系对确定与其对应的用户标识；使用确定的所述用户标识替换所述第一关系表中存在的所述用户的IP地址对应的用户标识，使用所述关系对替换所述第一关系表中与所述关系对中的网站的域名相同的关系对；并返回替换后的所述用户标识，使用替换后的所述用户标识识别所述用户。

优选地，所述用户信息还包括：时间信息，所述时间信息用于记录最近一次访问所述第一关系表的时间；所述用户识别方法还包括：定时轮询所述第一关系表，确定并删除所述时间信息大于设定阈值的表项，并将删除的表项中的IP地址插入到老化用户队列中；定时使用所述老化用户队列中的数据更新用户数据库中的数据，其中，所述用户数据库用于存储用户的IP地址及其对应的用户标识；或者，当所述老化用户队列满时，使用所述老化用户队列中的数据更新用户数据库中的数据。

优选地，在所述获取用户的访问信息的步骤之前，还包括：获取所述用户的设定时间段内的网络访问报文；对所述网络访问报文进行解析，获取所述网络访问报文中的至少一组网站的域名和网站的COOKIE信息关系对；为获取的所述关系对分配用户标识；将获取的所述关系对和分配的所述用户标识插入到所述第二关系表中。

优选地，在所述对所述网络访问报文进行解析的步骤之后，还包括：获取所述网络访问报文中的URL；在所述为获取的所述关系对分配用户标识的步骤之后，还包括：将获取的URL和分配的所述用户标识插入到所述用户数据库。

优选地，所述用户数据库还用于存储所述用户标识和对应的URL；在所述根据所述IP地址返回相对应的用户标识，根据所述用户标识识别所述用户的步骤之后，还包括：根据所述用户标识从所述用户数据库中获取与所述用户标识对应的URL；根据获取的所述URL向发送所述访问信息的用户投放广告。

为了解决上述问题，本发明还公开了一种用户识别装置，包括：获取模块，用于获取用户的访问信息，其中，所述访问信息包括：所述用户的IP地址、所述用户访问的网站的域名和所述用户访问的网站的COOKIE信息的关系对；第一判断模块，用于根据所述用户的IP地址查询第一关系表，判断是否存在所述IP地址和所述关系对的对应关系，其中，所述第一关系表中存储有用户信息及与所述用户信息对应的网站的域名和网站的COOKIE信息关系对的信息，所述用户信息包括IP地址、用户标识；第一返回模块，用于若所述第一判断模块的判断结果为存在，则根据所述用户的IP地址返回相对应的用户标识，根据返回的所述用户标识识别所述用户。

优选地，所述用户识别装置还包括：第二判断模块，用于若所述第一判断模块判断所述第一关系表中不存在所述用户的IP地址，则根据所述关系对查询第二关系表，判断所述第二关系表中是否存在所述关系对，其中，所述第二关系表中存储有网站的域名和网站的COOKIE信息关系对与用户标识的对应关系信息；第二返回模块，用于若所述第二判断模块的判断结果为存在，则将所述关系对和与其对应的用户标识，以及所述用户的IP地址插入到所述第一关系表中；并返回与所述关系对对应的用户标识，使用与所述关系对对应的用户标识识别所述用户。

与现有技术相比，本发明具有以下优点：

本发明通过获取访问信息中的用户的IP地址、用户访问的网站的域名和用户访问的网站的COOKIE信息的关系对，查询第一关系表确定对应于上述信息的用户标识，通过该用户标识识别用户。其中，第一关系表中存储有IP地址、用户标识，以及相对应的网站的域名和网站的COOKIE信息关系对。因为网站的域名和用户访问的网站的COOKIE信息的关系对却比较稳定，不容易变更，因此在这种情况下，即使IP发生了改变，也能通过网站的域名和用户访问的网站的COOKIE信息的关系对确定相应的用户标识，从而准确识别用户。可见，通过本发明，解决了现有技术的服务器不能够准确识别客户端和用户的问题，达到了服务器能够准确识别客户端和用户，进而进行后续的高精度操作，以减低信息交互成本和信息交互量，提升用户对网络的访问体验的效果。

附图说明

图1是根据本发明实施例一的一种用户识别方法的步骤流程图；

图2是根据本发明实施例二的一种用户识别方法的步骤流程图；

图3是根据本发明实施例三的一种用户识别方法的步骤流程图；

图4是图3所示实施例中的一种广告投放系统的示意图；

图5是图3所示实施例中的一种用户分析节点结构示意图；

图6是根据本发明实施例四的一种用户识别装置的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一

参照图1，示出了根据本发明实施例一的一种用户识别方法的步骤流程图。

本实施例的用户识别方法包括以下步骤：

步骤S102：服务器获取用户的访问信息。

用户在对网页进行访问时，会向服务器发送访问信息。本实施例中，访问信息中包括：用户的IP地址、用户访问的网站的域名和用户访问的网站的COOKIE信息的关系对。

步骤S104：服务器根据用户的IP地址查询第一关系表，判断是否存在IP地址和关系对的对应关系。

其中，第一关系表中存储有用户信息及与用户信息对应的网站的域名和网站的COOKIE信息关系对的信息，用户信息包括IP地址、用户标识。也即，第一关系表中存储有至少一个表项，每个表项都包括用户信息，及与用户信息对应的网站的域名和网站的COOKIE信息关系对的信息，如（IP1，UID1）->（HOST1，COOKIE1），其中，IP1表示一个用户的IP地址，UID1表示该用户的用户标识，（HOST1，COOKIE1）表示与该用户的IP地址和用户标识相对应的网站的域名和网站的COOKIE信息关系对。当然，不限于此，在实际应用中，本领域技术人员可以根据实际需要，增加相应的其它信息。

步骤S106：若服务器判断存在IP地址和关系对的对应关系，则根据用户的IP地址返回相对应的用户标识，根据返回的用户标识识别用户。

通过本实施例，服务器获取访问信息中的用户的IP地址、用户访问的网站的域名和用户访问的网站的COOKIE信息的关系对，查询第一关系表确定对应于上述信息的用户标识，通过该用户标识识别用户。其中，第一关系表中存储有IP地址、用户标识，以及相对应的网站的域名和网站的COOKIE信息关系对。因为网站的域名和用户访问的网站的COOKIE信息的关系对却比较稳定，不容易变更，因此在这种情况下，即使IP发生了改变，也能通过网站的域名和用户访问的网站的COOKIE信息的关系对确定相应的用户标识，从而准确识别用户。可见，通过本实施例，解决了现有技术的服务器不能够准确识别客户端和用户的问题，达到了服务器能够准确识别客户端和用户，进而进行后续的高精度操作，以减低信息交互成本和信息交互量，提升用户对网络的访问体验的效果。

实施例二

参照图2，示出了根据本发明实施例二的一种用户识别方法的步骤流程图。

本实施例的用户识别方法包括以下步骤：

步骤S202：在服务器中建立第二关系表。

第二关系表包括网站的域名和网站的COOKIE信息关系对与用户标识的对应关系信息。在服务器中建立第二关系表包括：服务器获取用户的设定时间段内的网络访问报文；对网络访问报文进行解析，获取网络访问报文中的至少一组网站的域名和网站的COOKIE信息关系对；为获取的关系对分配用户标识；将获取的关系对和分配的用户标识插入到第二关系表中。

第二关系表使用N对1的对应关系，即一组或多组网站的域名和网站的COOKIE信息关系对对应于一个用户标识。服务器首先获取用户在设定时间段内的网络访问报文，其中，设定时间段可以由本领域技术人员根据实际需要适当设置，如设置为一天或几小时等。然后，服务器对网络访问报文进行解析，解析时，可以根据用户在设定时间段内访问报文的树形结构，先获取叶子结点的网站的域名和网站的COOKIE信息关系对，再根据访问报文中的跳转信息如ref_url指示的信息确定该叶子结点的上一级结点，进而确定上一级结点对应的网站的域名和网站的COOKIE信息关系对。依此类推，直到树形结构的根结点。为从这些结点获得的关系对分配一个用户标识，以标识这些关系对为同一个用户访问过的关系对。之后，再将这些关系对与分配的用户标识的对应关系插入到第二关系表中。

对每一个新用户都进行上述操作，形成包含多个用户标识与相对应的关系对的第二关系表。

此外，服务器在对网络访问报文进行解析时，不仅可以获取网络访问报文中的至少一组网站的域名和网站的COOKIE信息关系对，同时还可以获取网络报文中的URL（Uniform Resource Locator，统一资源定位符）；在为获取的关系对分配用户标识后，服务器还可以将这些URL和对应的用户标识插入到用户数据库中，以为后续使用用户访问过的URL服务。

需要说明的是，上述第二关系表也可以由服务器从其它第三方获得，而无须服务器自身建立。

通过第二关系表，能够有效存储用户标识及相应的用户访问网站的信息。

步骤S204：在服务器中建立第一关系表。

第一关系表用于存储用户信息及与用户信息对应的网站的域名和网站的COOKIE信息关系对的信息，其中，用户信息包括IP地址、用户标识。

第一关系表的建立依赖于第二关系表。初始时，第一关系表为空，当服务器接收到用户的访问报文后，会从中提取用户的IP地址、用户访问的网站的域名和用户访问的网站的COOKIE信息的关系对；然后，先查询第一关系表中是否存在该用户的IP地址；当该IP地址不存在时，服务器使用用户访问的网站的域名和用户访问的网站的COOKIE信息的关系对查询第二关系表，从第二关系表中获取对该关系对对应的用户标识；之后，将该用户标识，以及之前提取的用户的IP地址、用户访问的网站的域名和用户访问的网站的COOKIE信息的关系对一起对应插入第一关系表中。对每一个新IP地址都进行上述操作，形成包含多个用户信息与相对应的关系对的第一关系表。

与第二关系表相同，上述第一关系表也可以由服务器从其它第三方获得，无须服务器自身建立。

通过第一关系表，能高效准确地对用户进行识别。

步骤S206：服务器获取用户的访问信息。

其中，访问信息包括：该用户的IP地址、该用户访问的网站的域名和该用户访问的网站的COOKIE信息的关系对。

步骤S208：服务器判断第一关系表中是否存在该用户的IP地址，若存在，则执行步骤S210；若不存在，则执行步骤S220。

步骤S210：服务器判断第一关系表中是否存在该用户的IP地址和该用户访问的网站的域名和该用户访问的网站的COOKIE信息的关系对的对应关系，若存在，则执行步骤S212；若不存在，则执行步骤S214。

步骤S212：服务器根据该用户的IP地址返回相对应的用户标识，根据返回的用户标识识别该用户，结束本次流程。

步骤S214：服务器判断与该用户的IP地址相对应的关系对中，是否有与本次的网站的域名相同的网站的域名，若有，则执行步骤S216；若没有，则丢弃本次的访问信息。

步骤S216：服务器查询第二关系表，判断第二关系表中是否存在该用户本次的网站的域名和该用户访问的网站的COOKIE信息的关系对，若存在，则执行步骤S218；若不存在，则丢弃本次的访问信息。

优选地，可以在用户信息中设置异常次数信息，用于表示第一关系表中存在IP地址和关系对中的网站的域名，但不存在用户访问的网站的COOKIE信息的次数。如，第一关系表中存在（IP1，UID1）－>（HOST1，COOKIE1），而关系对为（HOST1，COOKIE2），则异常次数信息用于记录第一关系表中存在IP1、HOST1，但不存在COOKIE2的次数，也即，多次不存在（HOST1，COOKIE2）的次数。设置设定阈值，当异常次数信息指示的异常次数达到设定阈值时，才查询第二关系表。通过设置设定阈值，避免了第一关系表和第二关系表间的频繁交互，提高系统效率。

步骤S218：服务器根据本次的关系对确定对应的用户标识，使用确定的用户标识替换第一关系表中存在的该用户的IP地址对应的用户标识，使用本次的关系对替换第一关系表中与本次的关系对中的网站的域名相同的原关系对；返回替换后的用户标识，使用替换后的用户标识识别用户，结束本次流程。

如，第一关系表中存在（IP1，UID1）－>（HOST1，COOKIE1），而通过本步骤确定了本次的关系对（HOST1，COOKIE2）对应的用户标识为UID11，则将（IP1，UID1）－>（HOST1，COOKIE1）替换为（IP1，UID11）－>（HOST1，COOKIE2）。

步骤S220：若第一关系表中不存在该用户的IP地址，则服务器根据本次的关系对查询第二关系表，判断第二关系表中是否存在本次的关系对，若存在，则执行步骤S222；若不存在，则丢弃本次的访问信息。

步骤S222：若第二关系表中存在本次的关系对，则服务器将第二关系表中的本次关系对和与本次关系对对应的用户标识，以及本次的用户的IP地址插入到第一关系表中。

优选地，可以在服务器中设置更新环形队列，将插入到第一关系表中的用户的IP地址和对应的用户标识加入该更新环形队列中；然后，定时使用该更新环形队列中的数据更新用户数据库中的数据；或者，当更新环形队列满时，使用更新环形队列中的数据更新用户数据库中的数据。其中，用户数据库用于存储用户的IP地址及其对应的用户标识。

步骤S224：服务器返回与本次的关系对对应的用户标识，使用该用户标识识别用户，结束本次流程。

优选地，本实施例中的用户信息还可以包括：时间信息，用于记录用户最近一次访问第一关系表的时间，先即，服务器在第一关系表中查找到IP地址和关系对的对应关系，返回用户标识的那次访问的时间。则，本实施例的用户识别方法还可以包括：服务器定时轮询第一关系表，确定并删除时间信息大于设定阈值的表项，并将删除的表项中的IP地址插入到老化用户队列中；定时使用老化用户队列中的数据更新用户数据库中的数据；或者，当老化用户队列满时，使用老化用户队列中的数据更新用户数据库中的数据。如上所述，用户数据库用于存储用户的IP地址及其对应的用户标识。

此外，如步骤S202中所述，用户数据库中还可以保存URL和对应的用户标识的信息，这些URL可以表明该用户感兴趣的网页，广告投放商可以根据这些信息投放广告。也即，在服务器根据用户的IP地址返回相对应的用户标识，根据用户标识识别用户之后，还可以根据用户标识从用户数据库中获取与用户标识对应的URL；根据获取的URL向发送访问信息的用户投放广告。

通过本实施例，在获取到用户的IP地址、网站的域名和访问的网站的COOKIE信息的关系对后，通过结合第一关系表和第二关系表识别用户的IP地址对应的用户标识，进而可以根据用户的IP地址提取用户的兴趣数据即URL。通过本实施例，可以克服用户信息严重不足时无法准确识别用户的缺陷，提高了在网盟网站上面投放广告的精准度，提高了广告流量的变现率。

实施例三

参照图3，示出了根据本发明实施例三的一种用户识别方法的步骤流程图。

本实施例以网盟网站通过识别用户，有针对性地投放广告为例，对本发明的用户识别方法作以说明。网盟网站投放广告时使用的广告投放系统可以如图4所示，包括：设置有UAN（User Analysis Node，用户分析节点）的运营商服务器、ULC（User Login Center，用户登陆中心）和ADC（Advertisement Cerner，广告中心）。其中，UAN主要实现分析用户发送的http_get报文，从中提取用户的IP地址、COOKIE信息（如COOKIE ID）、和URL；通过用户的IP地址、COOKIE信息更新用户表项（主要包括用户信息表如第一关系表中的用户的IP地址和对应的用户标识的表项）；结合URL实现计算用户兴趣组；将用户表项更新至ULC的数据库如redis数据库中。ULC负责保存用户表项和用户标识，本实施例中记录用户标识为UID，对应的兴趣组，并且支持ADC查询逻辑。ADC负责分析网盟访问报文，根据从ULC中获得的UID向用户投送精准广告。需要说明的是，UAN、ULC和ADC可以设置在一个或多个服务器中。

其中，UAN的结构如图5所示，UAN保存两个比较关键的哈希表，即Ip-cookielist_hash哈希表和Host-cookie_hash哈希表。在Ip-cookielist_hash哈希表中，采用(ip，user，ct，time)->(h1，c1)(h2，c2)......(hn，cn）的对应存储的结构，其中，（ip，user，ct，time）表示用户信息，（h1，c1）（h2，c2）……（hn，cn）表示与用户信息对应的网站的域名和网站的COOKIE信息的关系对。（ip，user，ct，time）中，ip表示用户的IP地址；user表示用户标识，user值即为UID；ct表示异常次数，即针对http_get报文中的ip、host-cookie项，查询到ip后，查询到h（即host），但找不到（h，c）点对（即（host，cookie）点对）的次数，也即，点对中有与h匹配的项，但没有与cookie匹配的项；time表示表项最后一次更新或查询时间，用于老化用户表项。而在Host-cookie_hash哈希表中，存储着根据一定算法获取得（h，c）点对与对应的UID（即user的值）的列表值。在实际应用中，该对应关系列表值可以由本领域技术人员根据实际需求使用适当算法实现，本发明对此不作限制。

基于上述结构，本实施例的用户识别方法包括以下步骤：

步骤S302：运营商服务器对于每一条http_get报文，通过预处理，提取报文的ip，（h，c）信息传递给UAN。

ip，（h，c）信息也即用户的IP地址，（用户访问的网站的域名HOST，用户访问的网站的COOKIE信息如COOKIE ID）。

步骤S304：UAN以ip为关键字，查询Ip-cookielist_hash哈希表，如果查询到，转步骤S306；如果未查询到，转步骤S312。

步骤S306：UAN查询Ip-cookielist_hash哈希表与ip对应的（h，c）点对，如果在表中查询到，则更新time为当前时间，返回user值即UID，使用ip和UID更新ULC中的用户表项和用户标识，转步骤S316；否则，转步骤S308。

步骤S308：ct计数加1，UAN判断ct是否达到设定阈值，若是，则转步骤S310；否则，不做处理，结束流程。

步骤S310：UAN根据（h，c）点对查询Host-cookie_hash哈希表，如果查询到，确定对该（h，c）点对对应的user值，并使用该user值替换Ip-cookielist_hash哈希表中的原user值，使用该（h，c）替换Ip-cookielist_hash哈希表中的原(h，c)点对，并返回替换后的user值即UID，转步骤S316；如果未查询到，则不做处理，结束流程。

步骤S312：如果UAN未在Ip-cookielist_hash哈希表中查询到ip关键字，则根据（h，c）点对查询Host-cookie_hash哈希表；如果查询到，转步骤S314；否则，不做处理，结束流程。

步骤S314：UAN在Ip-cookielist_hash哈希表中插入（ip，user，ct，time）->(h，c)项；同时将该表项中的ip-user点对，插入到更新环形队列中；最后，返回user值即UID，转步骤S316。

其中，插入的（ip，user，ct，time）—>（h，c）项中，ip为当前ip值，user初始化为从Host-cookie_hash哈希表中查到的UID，ct初始化为0，time初始化为当前时间，（h，c）列表初始化为Host-cookie_hash哈希表查得的列表。

需要说明的是，UAN老化机制采用定时轮询的方式，当表项中的time大于一定阈值时，将该表项删除，并将ip插入老化用户队列中。更新用户队列和老化用户队列定时或在队列满时，将数据更新至ULC的redis数据库中，以供ADC查询ip与user的对应关系。

步骤S316：ADC根据UAN返回的UID，查询ULC获得对应于UID的用户兴趣组URL，根据获得的URL向用户投送精准广告。

通过以上流程的处理，Ip-cookielist_hash哈希表中始终存放着运营商流量中包括的ip与user的对应关系。因此，如果当有ip查询ADC模块时，即可识别出该ip对应的user，从而提取其兴趣组数据。

通过本实施例，利用运营商服务器，获取用户的http_get报文，从中提取用户ip、host、cookie信息，结合Ip-cookielist_hash哈希表和Host-cookie_hash哈希表，识别出当前ip对应的UID，并利用Host-cookie_hash哈希表来进行修正；同时，累积UID对应的url信息；当用户访问网盟网站时，通过用户ip即可识别出当前用户的兴趣组，从而达到精准投放广告的目的。

实施例四

参照图6，示出了根据本发明实施例四的一种用户识别装置的结构框图。

本实施例的用户识别装置包括：获取模块402，用于获取用户的访问信息，其中，访问信息包括：用户的IP地址、用户访问的网站的域名和用户访问的网站的COOKIE信息的关系对；第一判断模块404，用于根据用户的IP地址查询第一关系表，判断是否存在IP地址和所述关系对的对应关系，其中，第一关系表中存储有用户信息及与用户信息对应的网站的域名和网站的COOKIE信息关系对的信息，用户信息包括IP地址、用户标识；第一返回模块406，用于若第一判断模块404的判断结果为存在，则根据用户的IP地址返回相对应的用户标识，根据返回的用户标识识别用户。

优选地，本实施例的用户识别装置还包括：第二判断模块408，用于若第一判断模块404判断第一关系表中不存在用户的IP地址，则根据所述关系对查询第二关系表，判断第二关系表中是否存在所述关系对，其中，第二关系表中存储有网站的域名和网站的COOKIE信息关系对与用户标识的对应关系信息；第二返回模块410，用于若第二判断模块408的判断结果为存在，则将所述关系对和与其对应的用户标识，以及用户的IP地址插入到第一关系表中；并返回与关系对对应的用户标识，使用与关系对对应的用户标识识别用户。

优选地，本实施例的用户识别装置还包括：更新模块412，用于在第二返回模块410将所述关系对和与其对应的用户标识，以及用户的IP地址插入到第一关系表中之后，将插入到第一关系表中的用户的IP地址和对应的用户标识加入更新环形队列中；定时使用更新环形队列中的数据更新用户数据库中的数据，其中，用户数据库用于存储用户的IP地址及其对应的用户标识；或者，当更新环形队列满时，使用更新环形队列中的数据更新用户数据库中的数据。

优选地，用户信息还包括异常次数信息，异常次数信息用于表示第一关系表中存在IP地址和关系对中的网站的域名，但不存在用户访问的网站的COOKIE信息的次数；本实施例的用户识别装置还包括：异常处理模块414，用于若异常次数信息指示的异常次数达到设定阈值，则查询第二关系表，判断第二关系表中是否存在所述关系对，其中，第二关系表中存储有网站的域名和网站的COOKIE信息关系对与用户标识的对应关系信息；若存在，则根据所述关系对确定与其对应的用户标识；使用确定的用户标识替换第一关系表中存在的用户的IP地址对应的用户标识，使用所述关系对替换第一关系表中与所述关系对中的网站的域名相同的关系对；并返回替换后的用户标识，使用替换后的用户标识识别用户。

优选地，用户信息还包括：时间信息，时间信息用于记录最近一次访问第一关系表的时间；更新模块412还用于定时轮询第一关系表，确定并删除时间信息大于设定阈值的表项，并将删除的表项中的IP地址插入到老化用户队列中；定时使用老化用户队列中的数据更新用户数据库中的数据，其中，用户数据库用于存储用户的IP地址及其对应的用户标识；或者，当老化用户队列满时，使用老化用户队列中的数据更新用户数据库中的数据。

优选地，本实施例的用户识别装置还包括：建立模块416，用于在获取模块402获取用户的访问信息之前，获取用户的设定时间段内的网络访问报文；对网络访问报文进行解析，获取网络访问报文中的至少一组网站的域名和网站的COOKIE信息关系对；为获取的所述关系对分配用户标识；将获取的所述关系对和分配的用户标识插入到第二关系表中。

优选地，建立模块416，还用于在对网络访问报文进行解析之后，获取网络访问报文中的URL；以及，在为获取的所述关系对分配用户标识之后，将获取的URL和分配的用户标识插入到用户数据库。

优选地，用户数据库还用于存储用户标识和对应的URL；本实施例的用户识别装置还包括：投放模块418，用于在返回相对应的用户标识，根据用户标识识别用户之后，根据用户标识从用户数据库中获取与用户标识对应的URL；根据获取的URL向发送访问信息的用户投放广告。

本实施例的用户识别装置用于实现前述多个方法实施例中相应的用户识别方法，并具有相应的方法实施例的有益效果，在此不再赘述。

本发明提供了一种运营商平台在取得用户http_get报文后，提取ip、host和cookie后，通过结合Ip-cookielist_hash哈希表和Host-cookie_hash哈希表来识别ip对应的UID，从而使得ADC在取得ip后查询到UID，并根据UID提取兴趣数据的方案；并且，可以使用Host-cookie_hash哈希表，通过各个网站cookie值来精确修正当前ip对应的UID，以期将此ip对应到访问网盟网站的UID。通过本发明，克服了网盟网站用户信息严重不足的缺陷，提高了在网盟网站上面投放广告的精准度，提高了流量的变现率。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本发明所提供的一种用户识别方法和装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种用户识别方法，其特征在于，包括：

获取用户的访问信息，其中，所述访问信息包括：所述用户的IP地址、所述用户访问的网站的域名和所述用户访问的网站的COOKIE信息的关系对；

根据所述用户的IP地址查询第一关系表，判断是否存在所述IP地址和所述关系对的对应关系，其中，所述第一关系表中存储有用户信息及与所述用户信息对应的网站的域名和网站的COOKIE信息关系对的信息，所述用户信息包括IP地址、用户标识；

若存在，则根据所述用户的IP地址返回相对应的用户标识，根据返回的所述用户标识识别所述用户。

2.根据权利要求1所述的方法，其特征在于，还包括：

若所述第一关系表中不存在所述用户的IP地址，则根据所述关系对查询第二关系表，判断所述第二关系表中是否存在所述关系对，其中，所述第二关系表中存储有网站的域名和网站的COOKIE信息关系对与用户标识的对应关系信息；

若存在，则将所述关系对和与其对应的用户标识，以及所述用户的IP地址插入到所述第一关系表中；

并返回与所述关系对对应的用户标识，使用与所述关系对对应的用户标识识别所述用户。

3.根据权利要求2所述的方法，其特征在于，在所述将所述关系对和与其对应的用户标识，以及所述用户的IP地址插入到所述第一关系表中的步骤之后，还包括：

将插入到所述第一关系表中的所述用户的IP地址和所述对应的用户标识加入更新环形队列中；

定时使用所述更新环形队列中的数据更新用户数据库中的数据，其中，所述用户数据库用于存储用户的IP地址及其对应的用户标识；或者，当所述更新环形队列满时，使用所述更新环形队列中的数据更新所述用户数据库中的数据。

4.根据权利要求1或2所述的方法，其特征在于，所述用户信息还包括异常次数信息，所述异常次数信息用于表示所述第一关系表中存在所述IP地址和所述关系对中的网站的域名，但不存在所述用户访问的网站的COOKIE信息的次数；

所述方法还包括：

若所述异常次数信息指示的异常次数达到设定阈值，则查询第二关系表，判断所述第二关系表中是否存在所述关系对，其中，所述第二关系表中存储有网站的域名和网站的COOKIE信息关系对与用户标识的对应关系信息；

若存在，则根据所述关系对确定与其对应的用户标识；使用确定的所述用户标识替换所述第一关系表中存在的所述用户的IP地址对应的用户标识，使用所述关系对替换所述第一关系表中与所述关系对中的网站的域名相同的关系对；并返回替换后的所述用户标识，使用替换后的所述用户标识识别所述用户。

5.根据权利要求4所述的方法，其特征在于，所述用户信息还包括：时间信息，所述时间信息用于记录最近一次访问所述第一关系表的时间；

所述方法还包括：

定时轮询所述第一关系表，确定并删除所述时间信息大于设定阈值的表项，并将删除的表项中的IP地址插入到老化用户队列中；

定时使用所述老化用户队列中的数据更新用户数据库中的数据，其中，所述用户数据库用于存储用户的IP地址及其对应的用户标识；或者，当所述老化用户队列满时，使用所述老化用户队列中的数据更新用户数据库中的数据。

6.根据权利要求5所述的方法，其特征在于，在所述获取用户的访问信息的步骤之前，还包括：

获取所述用户的设定时间段内的网络访问报文；

对所述网络访问报文进行解析，获取所述网络访问报文中的至少一组网站的域名和网站的COOKIE信息关系对；

为获取的所述关系对分配用户标识；

将获取的所述关系对和分配的所述用户标识插入到所述第二关系表中。

7.根据权利要求6所述的方法，其特征在于，

在所述对所述网络访问报文进行解析的步骤之后，还包括：获取所述网络访问报文中的URL；

在所述为获取的所述关系对分配用户标识的步骤之后，还包括：将获取的URL和分配的所述用户标识插入到所述用户数据库。

8.根据权利要求7所述的方法，其特征在于，所述用户数据库还用于存储所述用户标识和对应的URL；

在所述根据所述IP地址返回相对应的用户标识，根据所述用户标识识别所述用户的步骤之后，还包括：根据所述用户标识从所述用户数据库中获取与所述用户标识对应的URL；根据获取的所述URL向发送所述访问信息的用户投放广告。

9.一种用户识别装置，其特征在于，包括：

获取模块，用于获取用户的访问信息，其中，所述访问信息包括：所述用户的IP地址、所述用户访问的网站的域名和所述用户访问的网站的COOKIE信息的关系对；

第一判断模块，用于根据所述用户的IP地址查询第一关系表，判断是否存在所述IP地址和所述关系对的对应关系，其中，所述第一关系表中存储有用户信息及与所述用户信息对应的网站的域名和网站的COOKIE信息关系对的信息，所述用户信息包括IP地址、用户标识；

第一返回模块，用于若所述第一判断模块的判断结果为存在，则根据所述用户的IP地址返回相对应的用户标识，根据返回的所述用户标识识别所述用户。

10.根据权利要求9所述的装置，其特征在于，还包括：

第二判断模块，用于若所述第一判断模块判断所述第一关系表中不存在所述用户的IP地址，则根据所述关系对查询第二关系表，判断所述第二关系表中是否存在所述关系对，其中，所述第二关系表中存储有网站的域名和网站的COOKIE信息关系对与用户标识的对应关系信息；

第二返回模块，用于若所述第二判断模块的判断结果为存在，则将所述关系对和与其对应的用户标识，以及所述用户的IP地址插入到所述第一关系表中；并返回与所述关系对对应的用户标识，使用与所述关系对对应的用户标识识别所述用户。