CN107426133A

CN107426133A - 一种建立用户身份映射关系的方法及装置

Info

Publication number: CN107426133A
Application number: CN201610344389.0A
Authority: CN
Inventors: 童毅轩; 张佳师; 姜珊珊; 郑继川; 董滨
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2016-05-23
Filing date: 2016-05-23
Publication date: 2017-12-01
Anticipated expiration: 2036-05-23
Also published as: CN107426133B; JP2017211989A; JP6344503B2

Abstract

本发明提供了一种建立用户身份映射关系的方法及装置。本发明基于网络请求数据构造字段之间的映射关系，为用户身份识别提供了技术支持。另外，本发明还通过给无名字段命名，能够自动发现人工难以发现的不带有特殊含义的字段，从而在后续用户身份识别时可以利用这些不具有特殊含义的字段，进而识别出更多网络请求发送者的身份，由于发现过程是自动化的，避免为每个字段单独制定发现方案所带来的实现复杂度，节省了大量人力成本，使得本发明易于实现。

Description

一种建立用户身份映射关系的方法及装置

技术领域

本发明涉及网络用户身份识别技术领域，具体涉及一种建立用户身份映射关系的方法及装置。

背景技术

随着移动宽带技术和互联网的发展，近年来，社交网络服务(SNS，SocialNetwork Service)已成为移动互联网的热点和发展趋势之一。在网络上传播的数据中包含了大量的信息，用户身份信息就是其中最有价值的信息之一。

网络用户身份识别，通过收集用户的身份信息，以供用户画像、用户行为分析、个性化推荐等系统使用。利用用户身份信息，可以更好的开展多种商业业务，如商品推荐、精准广告营销等，另外此类信息对安全、媒体等行业或部门也具有重要意义。

基于深度包检测技术可以获得大量的网络请求数据。这些数据中有的包含了诸如：国际移动用户识别码(IMSI，International Mobile SubscriberIdentification Number)、国际移动设备身份码(IMEI，International MobileEquipment Identity)、移动台识别号码(MSISDN，Mobile Subscriber InternationalISDN/PSTN number)等字段，这些字段可以直接进行用户身份的识别。还有些网络请求数据中不包含可以直接用于用户身份识别的字段，这些请求的发送者难以被辨识。

因此，亟需一种能够基于网络请求数据的样本数据，建立用户身份映射关系的方法，以用于识别不同的网络请求数据的发送者身份。

发明内容

本发明实施例要解决的技术问题是提供一种建立用户身份映射关系的方法及装置，基于网络请求数据构造字段之间的映射关系，为用户身份识别提供了技术支持。

为解决上述技术问题，本发明实施例提供的建立用户身份映射关系的方法，包括：从网络请求数据的样本中提取字段以及字段值，并获得字段间的共现关系，所述字段包括用户标识字段和除用户标识字段外的非标识字段，所述共现关系是指不同字段出现在同一份网络请求数据中；

将用户标识字段作为初阶字段，并确定非标识字段的阶数，其中，非标识字段的阶数为与该非标识字段共现的阶数最靠前的字段的下一阶；

根据字段的阶数，构造映射关系，所述映射关系中记录有非标识字段、与该非标识字段的共现的上一阶字段，以及该非标识字段与上一阶字段共现时各自的字段值。

优选的，上述方法中，所述从网络请求数据的样本中提取字段以及字段值的步骤，包括：从网络请求数据中提取出包含有字段名的字段及其字段值；以及，根据该网络请求数据中的字段名和/或字段值的上下文信息，为该网络请求数据中无名字段命名，获得该无名字段的字段名及其字段值。

优选的，上述方法中，在所述构造映射关系的步骤之后，所述方法还包括：获得一待识别的第一网络请求数据；提取第一网络请求数据中包含的各个字段及对应的字段值；在所述第一网络请求数据中未包含有用户标识字段时，从提取的字段中查找一个阶数最靠前、且字段值与映射关系中对应字段的字段值相同的第一字段；根据所述第一字段及其字段值，在映射关系中逐阶查找上一阶字段，直至未能查找到上一阶字段或者获得一用户标识字段及其字段值，并在获得用户标识字段时，将该用户标识字段的字段值作为第一网络请求数据的用户身份信息的识别结果。

优选的，上述方法中，在确定非标识字段的阶数的步骤之后，所述方法还包括：按照预设规则，从阶数靠前的前M阶非标识字段中的每一阶非标识字段中，分别选择出预设数量的非标识字段；所述根据字段的阶数，构造映射关系的步骤包括：针对选择出的所述预设数量的非标识字段，根据字段的阶数，构造所述映射关系。

优选的，上述方法中，所述按照预设规则，从阶数靠前的前M阶非标识字段中的每一阶非标识字段中，分别选择出预设数量的非标识字段的步骤，包括：计算非标识字段的上行映射参数、下行映射参数、重复性参数和合理性参数；针对所述前M阶非标识字段中的每一阶非标识字段，筛选出上行映射参数小于第一阈值，且重复性参数表示的重复出现程度超出第二阈值的非标识字段，并针对筛选出的非标识字段，按照合理性参数的高低顺序，选择出预设数量的非标识字段。

优选的，上述方法中，所述上行映射参数为：与每个v_i共现时，该非标识字段的上一阶字段的不同字段值的总数量，平均到每个v_i上的第一平均数量，所述v_i表示该非标识字段的一个字段值；所述下行映射参数为：与每个u_i共现时，该非标识字段的不同字段值的总数量，平均到每个u_i上的第二平均数量，所述u_i表示与该非标识字段共现时的上一阶字段的一个字段值；所述重复性参数为所述样本中具有不同取值的(v_i，u_i)的数量，与所述样本中(v_i，u_i)的出现次数的比值；所述合理性参数为所述样本中包含有该非标识字段的网络请求数据的数量，相对于所述第一平均数量与第二平均数量之和的比值。

优选的，上述方法中，在所述构造映射关系的步骤之后，所述方法还包括：获得一待识别的第二网络请求数据；提取第二网络请求数据中包含的各个字段及对应的字段值；在所述第二网络请求数据中未包含有用户标识字段时，从提取的字段中查找一个阶数最靠前、且字段值与映射关系中对应字段的字段值相同的第二字段；根据所述第二字段及其字段值，在映射关系中逐阶查找具有最小的上行映射参数的上一阶字段，直至未能查找到上一阶字段或者获得一用户标识字段及其字段值，并在获得用户标识字段时，将该用户标识字段的字段值作为第一网络请求数据的用户身份信息的识别结果。

本发明实施例还提供了一种建立用户身份映射关系的装置，包括：

字段提取单元，用于从网络请求数据的样本中提取字段以及字段值，并获得字段间的共现关系，所述字段包括用户标识字段和除用户标识字段外的非标识字段，所述共现关系是指不同字段出现在同一份网络请求数据中；

阶数确定单元，用于将用户标识字段作为初阶字段，并确定非标识字段的阶数，其中，非标识字段的阶数为与该非标识字段共现的阶数最靠前的字段的下一阶；

映射关系构造单元，用于根据字段的阶数，构造映射关系，所述映射关系中记录有非标识字段、与该非标识字段的共现的上一阶字段，以及该非标识字段与上一阶字段共现时各自的字段值。

优选的，上述装置中，所述字段提取单元包括：

第一提取单元，用于从网络请求数据中提取出包含有字段名的字段及其字段值；以及，

第二提取单元，用于根据该网络请求数据中的字段名和/或字段值的上下文信息，为该网络请求数据中无名字段命名，获得该无名字段的字段名及其字段值。

优选的，上述装置中，还包括：

第一用户身份识别单元，用于获得一待识别的第一网络请求数据；提取第一网络请求数据中包含的各个字段及对应的字段值；在所述第一网络请求数据中未包含有用户标识字段时，从提取的字段中查找一个阶数最靠前、且字段值与映射关系中对应字段的字段值相同的第一字段；根据所述第一字段及其字段值，在映射关系中逐阶查找上一阶字段，直至未能查找到上一阶字段或者获得一用户标识字段及其字段值，并在获得用户标识字段时，将该用户标识字段的字段值作为第一网络请求数据的用户身份信息的识别结果。

优选的，上述装置中，还包括：

字段选择单元，用于按照预设规则，从阶数靠前的前M阶非标识字段中的每一阶非标识字段中，分别选择出预设数量的非标识字段；

所述映射关系构造单元，具体用于针对选择出的所述预设数量的非标识字段，根据字段的阶数，构造所述映射关系。

与现有技术相比，本发明实施例提供的建立用户身份映射关系的方法及装置，基于网络请求数据构造字段之间的映射关系，为用户身份识别提供了技术支持。另外，本发明实施例还通过给无名字段命名并提起命名后的无名字段及其字段值用以构造映射关系，能够自动发现人工难以发现的不带有特殊含义的字段，从而在后续用户身份识别时可以利用这些不具有特殊含义的字段，进而识别出更多网络请求发送者的身份，并且由于发现过程是自动化的，避免为每个字段单独制定发现方案所带来的实现复杂度，节省了大量人力成本，因此本发明实施例能够减少了字段发现过程中的人工干预，其方案也易于实现，大规模应用更加简单易行。

附图说明

图1为本发明实施例的建立用户身份映射关系的方法的流程示意图；

图2为本发明实施例的建立用户身份映射关系的方法的另一流程示意图；

图3为本发明实施例的基于映射关系识别用户身份的流程示意图；

图4为本发明实施例的建立用户身份映射关系的方法的又一流程示意图；

图5为本发明实施例的基于映射关系识别用户身份的另一流程示意图；

图6为本发明实施例的建立用户身份映射关系的装置的功能结构示意图；

图7为本发明实施例的建立用户身份映射关系的装置的硬件结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。在下面的描述中，提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本发明的实施例。因此，本领域技术人员应该清楚，可以对这里描述的实施例进行各种改变和修改而不脱离本发明的范围和精神。另外，为了清楚和简洁，省略了对已知功能和构造的描述。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

在本发明的各种实施例中，应理解，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

另外，本文中术语“终端”和“用户”在本文中常可互换使用。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

如前文所述，网络请求数据中可能包含或者不包含能够直接用于确定用户身份的字段，为了能够利用更多的字段来识别用户身份，本发明实施例提供了一种建立用户身份映射关系的方法，建立不同字段之间的映射关系，以用于后续的用户身份识别。本发明实施例建立的映射关系，能够用于识别出更多网络请求发送者的身份，从而可以提高用户身份识别的有效性和准确性。

为了便于理解本发明的以下实施例，先介绍本发明实施例涉及的相关概念。

1)共现关系

共现关系是指同时出现在样本的某一份网络请求数据中。某个字段的共现字段，是指与该某个字段同时出现在某一份网络请求数据中的字段，例如，字段1的共现字段包括字段2和字段3，则说明字段1和字段2同时出现在网络请求数据1中，字段1和字段3同时出现在网络请求数据2中，网络请求数据1和2可以是同一网络请求数据，也可以是不同的网络请求数据。此时，与字段1共现的字段则包括字段2和字段3。

2)字段的阶数

本发明实施例为字段增加阶数的属性。其中，将用户标识字段作为初阶字段，初阶字段是阶数最靠前的字段。初阶字段的阶数的具体数值可以自行设置，初阶字段的下一阶字段的阶数也可以按照不同的原则进行设置，例如，设置为：初阶字段的阶数加1或减1。当初阶字段的下一阶字段为初阶字段的阶数加1时，则认为阶数靠前的字段具有较小的阶数；反之，当初阶字段的下一阶字段为初阶字段的阶数减1时，则认为阶数靠前的字段具有较大的阶数。本发明实施例的下文中，将以初阶字段的阶数为0，某个字段的下一阶字段为该字段的阶数加1，某个字段的上一阶字段为该字段的阶数减1为例进行说明，即阶数靠前的字段具有较小的阶数。

3)用户标识字段和非标识字段

网络请求数据可以是用户通过手机、个人电脑、PDA/PAD等终端发送的，每份网络请求数据中可能包括有可以直接用于确定用户身份的字段，即用户标识字段，这些字段可以是IMSI、IMEI、MSISDN等字段，还可以是媒体访问控制(MAC)地址等字段，这些字段通常包括有字段名和字段值，其字段值可以直接作为用户身份标识。

网络请求数据中也可能同时包含有用户标识字段和除用户标识字段外的非标识字段，非标识字段是指不能直接用于确定用户身份的字段。当然，网络请求数据中也可能不包含有用户标识字段，而仅包含有非标识字段。

对于用户标识字段，其不同的字段值代表不同的用户身份。对于非标识字段，其不同的字段值可能对应相同或不同的用户身份，也可能与用户身份并无关联关系。

请参照图1，本发明实施例提供的建立用户身份映射关系的方法，包括：

步骤11，从网络请求数据的样本中提取字段以及字段值，并获得字段间的共现关系，所述字段包括用户标识字段和除用户标识字段外的非标识字段，所述共现关系是指不同字段出现在同一份网络请求数据中。

这里，本发明实施例基于预先获得的网络请求数据的样本进行处理，建立用户身份的映射关系。网络请求数据的获取方式，可以采用深度包检测技术，获取网络上一段时间内的网络请求数据，作为样本。这些网络请求数据可以是HTTP/HTTPs请求数据，也可以基于其他协议的请求数据。本发明实施例将从样本的每份网络请求数据中提取其中的字段及字段的字段值，并获得字段之间的共现关系，即哪些字段是同时出现的，且同时出现时这些字段的字段值。

步骤12，将用户标识字段作为初阶字段，并确定非标识字段的阶数，其中，非标识字段的阶数为与该非标识字段共现的阶数最靠前的字段的下一阶。

这里，某个网络请求数据中的非标识字段的阶数，由该网络请求数据中的阶数最靠前的字段所确定，具体为该阶数最靠前的字段的下一阶。当然，也有可能某个网络请求数据中的所有字段的阶数都未知，此时可以继续识别其他网络请求数据中的字段的阶数，然后根据其他网络请求数据的识别结果，来更新该网络请求数据的字段阶数。如果一个非标识字段的阶数始终无法确定，则可以将其阶数看作是无穷大，即将该非标识字段看作一个孤立的字段。

步骤13，根据字段的阶数，构造映射关系，所述映射关系中记录有非标识字段、与该非标识字段的共现的上一阶字段，以及该非标识字段与上一阶字段共现时各自的字段值。

这里，在提取了字段名及字段值，以及确定了字段的阶数后，可以据此建立字段之间的映射关系，从而得到反映字段之间映射关系的映射字典。后续可以利用该映射关系，对待识别的网络请求数据进行识别，以获得该网络请求数据的发送者的身份信息(用户标识)。

从以上步骤可以看出，本发明实施例通过建立字段之间的映射字典，通过多阶字段之间的映射关系，用于预测可能的用户身份信息，为后续的用户身份识别提供了技术支持。

考虑到一个字段的字段名，可能包含在网络请求数据中，也可能并没有出现在网络请求数据中。作为一种实现方式，在上述步骤11中，本发明实施例可以仅提取网络请求数据中同时包含有字段名和字段值的字段，以简化处理。

作为另一种实现方式，本发明实施例不但提取网络请求数据中同时包含有字段名和字段值的字段，还提取不包含有字段名的字段(为描述方便，本文中将不包含有字段名的字段称为无名字段)

为了区分不同的无名字段，本发明实施例在提取无名字段时，进一步根据该网络请求数据中的字段名和/或字段值的上下文信息，为该网络请求数据中无名字段命名，即，将网络请求数据中的上下文的字段信息(如字段名和/或字段值)加入该无名字段的字段名中，从而获得该无名字段的字段名，然后可以将已命名的无名字段，作为有名字段，提取该无名字段的字段名及其字段值。本发明实施例采用统一的无名字段的命名方式，为无名字段进行命名，从而可以自动获得更多的不具备特殊含义的字段，并基于包括这些无名字段在内的字段构造的映射字典，可以提高网络请求数据的用户身份识别的识别概率。

例如，假设一份网络请求数据具有以下内容：

app；android；4.4.0；4.3；99000554464300-0c1daff4ff6b；network/UNKNOW；osp/android；apv/4.4.0；osv/4.3；uid/99000554464300-；pv/425.13；

假设各个字段用分号“；”分隔，每个字段的键(字段名)和值(字段值)以斜杠“/”分隔。可见，该网络请求数据中的前5个字段(即：app；android；4.4.0；4.3；99000554464300-0c1daff4ff6b；)没有字段名，即为无名字段。如果要给这些无名字段，例如，第5个无名字段命名，一个可能的字段名为：1v{app}5，它代表待取名的第5个无名字段所在的上下文环境中第1个字段的取值为app。类似的，可以为第5个字段找到更多的字段名，如：2v{android}5，或3v{4.4.0}5。

根据无名字段的特点，可以采用不同的方式将网络请求数据中的上下文的字段信息加入该无名字段的字段名中。上文给出的例子中只用了上下文的一个无名字段的字段值的信息，实际使用中可以加入更多上下文信息，例如，加入更多的无名字段的字段值，此时可能的命名包括：1v{app}2v{android}5，它代表待取名的第5个无名字段所在的上下文环境中第1个字段的取值为app，且第2个字段的取值为android。

无名字段的字段名中还可以同时加入无名字段的字段值和有名字段的字段名和/或字段值，此时可能的命名包括：1v{app}6v{network/UNKNOW}5，它代表待取名的第5个无名字段所在的上下文环境中第1个字段的取值为app，且第6个字段的字段名为network，字段值为UNKNOW。当然，无名字段的命名也可以仅使用有名字段的字段名和/或字段值，此时可能的命名包括：6v{network/UNKNOW}5，它代表待取名的第5个无名字段所在的上下文环境中第6个字段的字段名为network，字段值为UNKNOW。

请参照图2，本发明实施例提供的建立用户身份映射关系的方法的又一流程，该流程包括：

步骤21，从网络请求数据的样本中提取字段以及字段值，并获得字段间的共现关系，所述字段包括用户标识字段和除用户标识字段外的非标识字段，所述共现关系是指不同字段出现在同一份网络请求数据中。

步骤22，将用户标识字段作为初阶字段，并确定非标识字段的阶数，其中，非标识字段的阶数为与该非标识字段共现的阶数最靠前的字段的下一阶。

以上步骤21、22与前文的步骤11、12相类似，为节约篇幅不再赘述。

步骤23，按照预设规则，从阶数靠前的前M阶非标识字段中的每一阶非标识字段中，分别选择出预设数量的非标识字段。

这里，考虑到字段的阶数可能比较多，各阶字段的字段数量可能非常大，而阶数靠后的字段在确定用户身份信息方面的价值相对较低，因此，为降低计算量，加快收敛速度，可以仅基于阶数靠前的前M阶非标识字段中的部分字段构造映射关系，即从初阶字段下一阶的非标识字段开始，选择出前M阶非标识字段。这里，M为一正整数，例如取值为2或3。针对前M阶中的每一阶非标识字段，选择出预设数量的非标识字段。每一阶非标识字段中选择出的非标识字段的数量可以相同或不同。具体的，可以按照不同规则，从每一阶非标识字段中选择出预设数量的非标识字段：

例如，针对所述前M阶非标识字段中的每一阶非标识字段，按照非标识字段在样本中出现频次的高低顺序，选择出预设数量的非标识字段。

又例如，统计非标识字段在样本中的出现次数，以及，计算非标识字段的重复性参数，所述重复性参数表示由该非标识字段与共现的上一阶字段组成的字段对在样本中重复出现的程度；然后，针对所述前M阶非标识字段中的每一阶非标识字段，根据所述重复性参数，筛选出重复出现的程度超出某个阈值(假设为第三阈值)的非标识字段，并针对筛选出的非标识字段，按照非标识字段在样本中出现频次的高低顺序，选择出预设数量的非标识字段。

步骤24，针对选择出的所述预设数量的非标识字段，根据字段的阶数，构造映射关系，所述映射关系中记录有非标识字段、与该非标识字段的共现的上一阶字段，以及该非标识字段与上一阶字段共现时各自的字段值。

通过以上流程，本发明实施例可以减少了参与映射关系建立的非标识字段的数量，从而降低映射关系建立的计算量，加快收敛速度。

以上通过两个流程，说明了本发明实施例建立所述映射关系的步骤。更进一步的，在建立了所述映射关系之后，本发明实施例还可以基于所述映射关系，对待识别的网络请求数据进行发送者身份信息的识别。此时，如图3所示，在上述步骤13或步骤24之后，还可以包括以下步骤：

步骤31，获得一待识别的第一网络请求数据。

步骤32，提取第一网络请求数据中包含的各个字段及对应的字段值。

这里，可以按照前文所述的方式，提取第一网络请求数据中的有名字段和无名字段及各自的字段值，在提取无名字段时，按照前文相同的方式，为无名字段进行命名，此处不再赘述。

步骤33，判断所述第一网络请求数据是否包含有用户标识字段，若是，进入步骤34，否则进入步骤35。

步骤34，根据第一网络请求数据包含的用户标识字段，识别第一网络请求数据的用户身份信息，即直接将该用户标识字段的字段值，作为第一网络请求数据的发送者的用户身份信息。

步骤35，在所述第一网络请求数据中未包含有用户标识字段时，从提取的字段中查找一个阶数最靠前、且字段值与映射关系中对应字段的字段值相同的第一字段。

这里，在步骤13或步骤24中建立的映射关系中，查找是否存在步骤31中提取的非标识字段，具体的，可以先在映射关系中的阶数最靠前的第1阶非标识字段中，查找是否存在步骤31中提取的非标识字段，如果未查找到，则进一步在第2阶非标识字段查找，若查找到，则将查找到的字段作为第一字段，进入步骤36；若所有非标识字段都查找失败，则身份识别失败，结束流程。

步骤36，根据所述第一字段及其字段值，在映射关系中逐阶查找上一阶字段，直至未能查找到上一阶字段或者获得一用户标识字段及其字段值，并在获得用户标识字段时，将该用户标识字段的字段值作为第一网络请求数据的用户身份信息的识别结果。

这里，由于映射关系中预先建立了相邻两阶字段之间的共现的字段及字段值，因此，可以通过逐阶查找的方式，先在映射关系中查找第一字段及其字段值(假设第一字段为第x阶字段，第一字段的上一阶为第x-1阶)，若查找到，则根据映射关系，确定与该第一字段及其字段值共现的上一阶字段(即第x-1)及其字段值，并根据所确定的上一阶字段(第x-1阶)及其字段值，继续与所确定的上一阶字段(第x-1阶)及其字段值共现的上一阶字段(第x-2阶)及其字段值，以此类推，继续逐阶查找，直至找到用户标识字段，或者查找失败，则身份识别失败，结束流程。

请参照图4，本发明实施例提供的建立用户身份映射关系的方法的另一流程，该流程包括：

步骤41，从网络请求数据的样本中提取字段以及字段值，并获得字段间的共现关系，所述字段包括用户标识字段和除用户标识字段外的非标识字段，所述共现关系是指不同字段出现在同一份网络请求数据中。

步骤42，将用户标识字段作为初阶字段，并确定非标识字段的阶数，其中，非标识字段的阶数为与该非标识字段共现的阶数最靠前的字段的下一阶。

以上步骤41、42与前文的步骤11、12相类似，为节约篇幅不再赘述。

步骤43，计算非标识字段的上行映射参数、下行映射参数、重复性参数和合理性参数。

这里，上行映射参数表示共现的上一阶字段的不同字段值的数量平均到该非标识字段的不同字段值上的第一平均数量。下行映射参数表示该非标识字段的不同字段值的数量平均到共现的上一阶字段的不同字段值上的第二平均数量。重复性参数表示由该非标识字段与共现的上一阶字段组成的映射对在样本中重复出现程度。所述合理性参数表示该非标识字段在样本中的出现次数相对于第一平均数量和第二平均数之和的比值。

步骤44，针对前M阶非标识字段中的每一阶非标识字段，筛选出上行映射参数小于第一阈值，且重复性参数表示的重复出现程度超出第二阈值的非标识字段，并针对筛选出的非标识字段，按照合理性参数的高低顺序，选择出预设数量的非标识字段。

这里，考虑到字段的阶数可能比较多，各阶字段的字段数量可能非常大，而阶数靠后的字段在确定用户身份信息方面的价值相对较低，因此，为降低计算量，加快收敛速度，可以仅基于阶数靠前的前M阶非标识字段中的部分字段构造映射关系，即从初阶字段下一阶的非标识字段开始，选择出前M阶非标识字段。这里，M为一正整数，例如取值为2或3。针对前M阶中的每一阶非标识字段，选择出预设数量的非标识字段。每一阶非标识字段中选择出的非标识字段的数量可以相同或不同。

步骤45，针对选择出的所述预设数量的非标识字段，根据字段的阶数，构造映射关系，所述映射关系中记录有非标识字段、与该非标识字段的共现的上一阶字段，以及该非标识字段与上一阶字段共现时各自的字段值。

以上步骤43中，通过计算非标识字段的多个参数，根据该多个参数，在步骤44中进行非标识字段的选择处理。下面将介绍非标识字段的各个参数可以采用的计算方式，需要指出的是，下文提及的计算公式，只是上述参数的一种计算方式而已，符合上述参数定义的计算公式，都可以应用于本实施例：

1)非标识字段的上行映射参数(Up_Mapping)的取值，具体可以为：与每个v_i共现时，该非标识字段的上一阶字段的不同字段值的总数量，平均到每个v_i上的第一平均数量，这里，所述v_i表示该非标识字段的一个字段值；

例如，对于1阶非标识字段p，其上一阶字段即为用户标识字段，因此，上行映射参数的一种计算公式为：

公式(1)中，ID表示用户标识字段，v_i是非标识字段p的各个字段值。上行映射参数衡量了与p的每个字段值共现的不同用户标识字段的平均个数。

对于N阶非标识字段p(这里，N≥2)，上行映射参数的一种计算公式为：

公式(2)中，v_i是非标识字段p的各个字段值；u_j是N-1阶非标识字段q对的各个字段值，“与v_i共现的不同u_j的数量”是指与v_i共现的，N-1阶非标识字段q的不同字段值的数量，公式(2)分子则表示对每个v_i共现的，N-1阶非标识字段q的不同字段值的数量求和，分母表示非标识字段p不同字段值的数量。

2)非标识字段的下行映射参数(Down_Mapping)的取值，具体可以为：与每个u_i共现时，该非标识字段的不同字段值的总数量，平均到每个u_i上的第二平均数量，所述u_i表示与该非标识字段共现时的上一阶字段的一个字段值。

例如，对于一阶非标识字段p，下行映射参数的一种计算公式为：

在公式(3)中，ID_i是与非标识字段p共现的ID之一。下行映射参数衡量了与每个不同的ID共现的不同非标识字段值的平均个数。可见，公式(3)的下行映射参数反映了对每个ID_i，平均有多少不同的p的字段值与ID共现。

对于N阶非标识字段p，下行映射参数的一种计算公式为：

在公式(4)中，u是与非标识字段p共现的，N-1阶非标识字段的所有字段值；u_i则是u中的一个元素。可见，公式(4)的下行映射参数反映了对每个u_i，平均有多少不同的p的字段值与u_i共现。

3)非标识字段的重复性参数的取值，具体可以为：所述样本中具有不同取值的(v_i，u_i)的数量，与所述样本中(v_i，u_i)的出现次数的比值，这里，(v_i，u_i)由共现的v_i和u_i组成，其中，v_i是非标识字段p的一个字段值，u_i是与v_i共现的上一阶字段的一个字段值。这里，只有两个(v_i，u_i)中对应的字段值都相同时，才认为是同一个(v_i，u_i)，否则，则认为是两个不同的(v_i，u_i)。

例如，重复性参数的一种计算公式为：

对于一阶非标识字段p来说：(v_i，u_i)，是由p的一个字段值与共现的一个ID组成；对于N阶非标识字段p来说：(v_i，u_i)，是由p的一个字段值与共现的N-1阶非标识字段的一个字段值组成。重复性参数衡量了(v_i，u_i)重复出现的程度。按照上述公式(5)计算得到的重复性参数的数值越大，则说明重复性越小；反之，重复性参数的数值越小，则说明重复性越大。

4)非标识字段的合理性参数的取值，具体可以为：样本中包含有该非标识字段的网络请求数据的数量，相对于所述第一平均数量与第二平均数量之和的比值。

例如，合理性参数的一种计算公式为：

以上提供了上述参数的计算公式的一种示例。需要指出的是，只要是符合以上参数定义的计算公式，都可以应用于本实施例。本领域技术人员可以基于以上参数的定义，设计出更多形式的公式，例如，公式(6)的一种替换形式为：

上述公式(7)中，k表示一个大于1的实数。

本发明实施例中，还可以进一步利用步骤45中构造的映射关系，对待识别的网络请求数据进行发送者身份信息的识别。此时，如图5所示，在上述步骤45之后，还可以包括以下步骤：

步骤51，获得一待识别的第二网络请求数据。

步骤52，提取第二网络请求数据中包含的各个字段及对应的字段值。

步骤53，判断所述第二网络请求数据是否包含有用户标识字段，若是，进入步骤54，否则进入步骤55。

步骤54，根据第二网络请求数据包含的用户标识字段，识别第二网络请求数据的用户身份信息，即直接将该用户标识字段的字段值，作为第二网络请求数据的发送者的用户身份信息。

步骤55，在所述第二网络请求数据中未包含有用户标识字段时，从提取的字段中查找一个阶数最靠前、且字段值与映射关系中对应字段的字段值相同的第二字段。

这里，在步骤45中建立的映射关系中，查找是否存在步骤51中提取的非标识字段，具体的，可以先在映射关系中的阶数最靠前的第1阶非标识字段中，查找是否存在步骤51中提取的非标识字段，如果未查找到，则进一步在第2阶非标识字段查找，若查找到，则将查找到的字段作为第一字段，进入步骤56；若所有非标识字段都查找失败，则身份识别失败，结束流程。

步骤56，根据所述第二字段及其字段值，在映射关系中逐阶查找具有最小的上行映射参数的上一阶字段，直至未能查找到上一阶字段或者获得一用户标识字段及其字段值，并在获得用户标识字段时，将该用户标识字段的字段值作为第一网络请求数据的用户身份信息的识别结果。

这里，由于映射关系中预先建立了相邻两阶字段之间的共现的字段及字段值，因此，可以通过逐阶查找的方式，先在映射关系中查找第一字段及其字段值(假设第一字段为第x阶字段，第一字段的上一阶为第x-1阶)，若查找到，则根据映射关系，确定与该第一字段及其字段值共现的上一阶字段(即第x-1)及其字段值；然后，根据所确定的上一阶字段(第x-1阶)及其字段值，继续获得与所确定的上一阶字段(第x-1阶)及其字段值共现的上一阶字段(第x-2阶)及其字段值，以此类推，继续逐阶查找，直至找到用户标识字段，或者查找失败，则身份识别失败，结束流程。以上查找过程中，如果所确定的上一阶字段(如第x-1、第x-2阶等)及其字段值有多个，则选取具有最小的上行映射参数的上一阶字段及其字段值进行后续的查找处理。由于具有最小的上行映射参数的上一阶字段具有更高的可信度，因此能够提高用户身份识别的准确性。

以上介绍了本发明实施例的不同实现方式，可以看出，本发明实施例提供了构造字段之间的映射关系，为用户身份识别提供了技术支持。另外，本发明实施例还通过给无名字段按照相同方式命名，可能自动发现人工难以发现的不带有特殊含义的字段，从而在后续用户身份识别时可以利用这些不具有特殊含义的字段，进而识别出更多网络请求发送者的身份，并且由于发现过程是自动化的，避免为每个字段单独制定发现方案所带来的实现复杂度，节省了大量人力成本，因此本发明实施例能够减少了字段发现过程中的人工干预，其方案也易于实现，大规模应用更加简单易行。

请参照图6，本发明实施例提供了一种建立用户身份映射关系的装置，如图6所示，该建立用户身份映射关系的装置60包括：

字段提取单元61，用于从网络请求数据的样本中提取字段以及字段值，并获得字段间的共现关系，所述字段包括用户标识字段和除用户标识字段外的非标识字段，所述共现关系是指不同字段出现在同一份网络请求数据中；

阶数确定单元62，用于将用户标识字段作为初阶字段，并确定非标识字段的阶数，其中，非标识字段的阶数为与该非标识字段共现的阶数最靠前的字段的下一阶；

映射关系构造单元63，用于根据字段的阶数，构造映射关系，所述映射关系中记录有非标识字段、与该非标识字段的共现的上一阶字段，以及该非标识字段与上一阶字段共现时各自的字段值。

本发明实施例还可以为无名字段命名，进而提取已命名的无名字段及其字段值，为此，所述字段提取单元可以包括：

本发明实施例可以进一步根据构造的映射关系进行用户身份识别，此时，上述装置还可以包括：

为了减少计算量，加快收敛速度，本发明实施例上述装置还可以包括：

字段选择单元，用于按照预设规则，从阶数靠前的前M阶非标识字段中的每一阶非标识字段中，分别选择出预设数量的非标识字段。此时，

作为一种实现方式，所述字段选择单元具体用于：针对所述前M阶非标识字段中的每一阶非标识字段，按照非标识字段在样本中出现频次的高低顺序，选择出预设数量的非标识字段。

作为另一种实现方式，所述字段选择单元具体用于：统计非标识字段在样本中的出现次数，以及，计算非标识字段的重复性参数，所述重复性参数表示由该非标识字段与共现的上一阶字段组成的字段对在样本中重复出现的程度；针对所述前M阶非标识字段中的每一阶非标识字段，根据所述重复性参数，筛选出重复出现的程度超出第三阈值的非标识字段，并针对筛选出的非标识字段，按照非标识字段在样本中出现频次的高低顺序，选择出预设数量的非标识字段。

作为又一种实现方式，所述字段选择单元具体用于：计算非标识字段的上行映射参数、下行映射参数、重复性参数和合理性参数；针对所述前M阶非标识字段中的每一阶非标识字段，筛选出上行映射参数小于第一阈值，且重复性参数表示的重复出现程度超出第二阈值的非标识字段，并针对筛选出的非标识字段，按照合理性参数的高低顺序，选择出预设数量的非标识字段。

这里，所述上行映射参数为：与每个v_i共现时，该非标识字段的上一阶字段的不同字段值的总数量，平均到每个v_i上的第一平均数量，所述v_i表示该非标识字段的一个字段值；

所述下行映射参数为：与每个u_i共现时，该非标识字段的不同字段值的总数量，平均到每个u_i上的第二平均数量，所述u_i表示与该非标识字段共现时的上一阶字段的一个字段值；

所述重复性参数为所述样本中具有不同取值的(v_i，u_i)的数量，与所述样本中(v_i，u_i)的出现次数的比值；

所述合理性参数为所述样本中包含有该非标识字段的网络请求数据的数量，相对于所述第一平均数量与第二平均数量之和的比值。

此时，上述装置还可以包括：

第二用户身份识别单元，用于获得一待识别的第二网络请求数据；提取第二网络请求数据中包含的各个字段及对应的字段值；在所述第二网络请求数据中未包含有用户标识字段时，从提取的字段中查找一个阶数最靠前、且字段值与映射关系中对应字段的字段值相同的第二字段；根据所述第二字段及其字段值，在映射关系中逐阶查找具有最小的上行映射参数的上一阶字段，直至未能查找到上一阶字段或者获得一用户标识字段及其字段值，并在获得用户标识字段时，将该用户标识字段的字段值作为第一网络请求数据的用户身份信息的识别结果。

请参照图7，为本发明实施例的建立用户身份映射关系的装置70的硬件结构示意图，如图7所示，该装置70包括：处理器71、RAM(随机存取存储器)72、ROM(只读存储器)73、硬盘74、输入设备75和显示设备76。上述处理器71、RAM 72、ROM 73、硬盘74、输入设备75和显示设备76可以通过总线架构互连。总线架构可以是可以包括任意数量的互联的总线和桥。具体由处理器72代表的一个或者多个中央处理器(CPU)，以及由RAM 72和ROM 73代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起，这些都是本领域所公知的，因此本文不再对其进行详细描述。

上述输入设备75，用于将网络请求数据的样本输入并保存在硬盘74中。

上述RAM 72和ROM 73，用于存储系统运行所必须的程序和数据，以及处理器计算过程中的中间结果等数据。

上述处理器71，当调用并执行所述RAM 72中所存储的程序和数据时，可以实现如下的功能模块：

字段提取单元，从网络请求数据的样本中提取字段以及字段值，并获得字段间的共现关系，所述字段包括用户标识字段和除用户标识字段外的非标识字段，所述共现关系是指不同字段出现在同一份网络请求数据中；

阶数确定单元，将用户标识字段作为初阶字段，并确定非标识字段的阶数，其中，非标识字段的阶数为与该非标识字段共现的阶数最靠前的字段的下一阶；

映射关系构造单元，根据字段的阶数，构造映射关系，所述映射关系中记录有非标识字段、与该非标识字段的共现的上一阶字段，以及该非标识字段与上一阶字段共现时各自的字段值。

上述显示设备76，则可以用于显示构造的映射关系，还可以用于显示用户身份信息的识别结果等。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种建立用户身份映射关系的方法，其特征在于，

从网络请求数据的样本中提取字段以及字段值，并获得字段间的共现关系，所述字段包括用户标识字段和除用户标识字段外的非标识字段，所述共现关系是指不同字段出现在同一份网络请求数据中；

2.如权利要求1所述的方法，其特征在于，

所述从网络请求数据的样本中提取字段以及字段值的步骤，包括：

从网络请求数据中提取出包含有字段名的字段及其字段值；以及，

根据该网络请求数据中的字段名和/或字段值的上下文信息，为该网络请求数据中无名字段命名，获得该无名字段的字段名及其字段值。

3.如权利要求1或2所述的方法，其特征在于，

在所述构造映射关系的步骤之后，所述方法还包括：

获得一待识别的第一网络请求数据；

提取第一网络请求数据中包含的各个字段及对应的字段值；

在所述第一网络请求数据中未包含有用户标识字段时，从提取的字段中查找一个阶数最靠前、且字段值与映射关系中对应字段的字段值相同的第一字段；

根据所述第一字段及其字段值，在映射关系中逐阶查找上一阶字段，直至未能查找到上一阶字段或者获得一用户标识字段及其字段值，并在获得用户标识字段时，将该用户标识字段的字段值作为第一网络请求数据的用户身份信息的识别结果。

4.如权利要求1所述的方法，其特征在于，

在确定非标识字段的阶数的步骤之后，所述方法还包括：

按照预设规则，从阶数靠前的前M阶非标识字段中的每一阶非标识字段中，分别选择出预设数量的非标识字段；

所述根据字段的阶数，构造映射关系的步骤包括：针对选择出的所述预设数量的非标识字段，根据字段的阶数，构造所述映射关系。

5.如权利要求4所述的方法，其特征在于，所述按照预设规则，从阶数靠前的前M阶非标识字段中的每一阶非标识字段中，分别选择出预设数量的非标识字段的步骤，包括：

计算非标识字段的上行映射参数、下行映射参数、重复性参数和合理性参数；

针对所述前M阶非标识字段中的每一阶非标识字段，筛选出上行映射参数小于第一阈值，且重复性参数表示的重复出现程度超出第二阈值的非标识字段，并针对筛选出的非标识字段，按照合理性参数的高低顺序，选择出预设数量的非标识字段。

6.如权利要求5所述的方法，其特征在于，

所述上行映射参数为：与每个v_i共现时，该非标识字段的上一阶字段的不同字段值的总数量，平均到每个v_i上的第一平均数量，所述v_i表示该非标识字段的一个字段值；

7.如权利要求5或6所述的方法，其特征在于，

在所述构造映射关系的步骤之后，所述方法还包括：

获得一待识别的第二网络请求数据；

提取第二网络请求数据中包含的各个字段及对应的字段值；

在所述第二网络请求数据中未包含有用户标识字段时，从提取的字段中查找一个阶数最靠前、且字段值与映射关系中对应字段的字段值相同的第二字段；

根据所述第二字段及其字段值，在映射关系中逐阶查找具有最小的上行映射参数的上一阶字段，直至未能查找到上一阶字段或者获得一用户标识字段及其字段值，并在获得用户标识字段时，将该用户标识字段的字段值作为第一网络请求数据的用户身份信息的识别结果。

8.一种建立用户身份映射关系的装置，其特征在于，包括：

9.如权利要求8所述的装置，其特征在于，所述字段提取单元包括：

10.如权利要求8或9所述的装置，其特征在于，还包括：

11.如权利要求8所述的装置，其特征在于，还包括：