CN106709318B

CN106709318B - 一种用户设备唯一性的识别方法、装置和计算设备

Info

Publication number: CN106709318B
Application number: CN201710059670.4A
Authority: CN
Inventors: 路瑶; 李天博; 张夏天
Original assignee: Tengyun Tianyu Technology (beijing) Co Ltd
Current assignee: Tengyun Tianyu Technology (beijing) Co Ltd
Priority date: 2017-01-24
Filing date: 2017-01-24
Publication date: 2019-05-03
Anticipated expiration: 2037-01-24
Also published as: CN106709318A

Abstract

本发明公开了一种用户设备唯一性的识别方法，包括：收集用户设备访问网络服务时生成的包括多个设备属性的用户设备信息，并将每个用户设备信息和对应的用户设备标识关联存储为样本库中的一条记录；对样本库的每两条用户设备信息进行对比，分别计算当用户设备标识相同时每种设备属性相同和不相同的标准似然度；获取待识别的两条用户设备信息，对比这两条设备信息的每种设备属性，根据对比结果获取每种设备属性对应的标准似然度，并将所有标准似然度相乘得到这两条用户设备信息属于同一用户设备的预测概率；通过比较预测概率与概率阈值来识别这两条用户设备信息是否属于同一用户设备。本发明还公开了对应的用户设备唯一性的识别装置和计算设备。

Description

一种用户设备唯一性的识别方法、装置和计算设备

技术领域

本发明涉及计算机与互联网技术领域，尤其涉及一种用户设备唯一性的识别方法、装置和计算设备。

背景技术

随伴随着“大数据时代”的到来和互联网蓬勃技术的发展，互联网公司存储的数据呈现出爆炸趋势，这给互联网公司对数据的存储和管理带来挑战。其中，用户唯一性识别一直是互联网公司一直需要面对的问题。尤其是对非结构化的采集数据，很难找到一个唯一的用户标识。

一般应用开发商或者数据收集商如果没有明确的用户设备标识，例如身份证号，手机号等，往往会根据几个属性例如手机的IMEI，IMSI，Serial No等，按照一定的规则生成一个用户的唯一性识别标识，也就是用户设备标识，来识别唯一的设备标识。

但是，面对数据的复杂性，按照上述规则来生成用户设备标识往往会出现各种问题。例如，当这些企业在采集用户的设备数据的时候，有时会出现用户刷机、更新系统、换sim卡诸如此类的情况，会导致为相同的用户设备生成不同的用户设备标识的问题，这给设备的唯一性识别带来了前所未有的挑战。

现有的用户唯一性识别的方法均通过定义距离函数，度量不同设备之间的相似性，例如：欧氏距离函数、夹角余弦、曼哈顿距离函数，通过计算两两记录之间的距离，进而确定用户设备是否唯一。但是这种方法存在以下问题：距离函数定义复杂，计算复杂度较高，计算开销大；距离函数难以处理缺失问题。但是互联网数据缺失现象非常普遍；距离函数计算出来的距离分布往往会比较集中，难以找到判断两个设备是否相同的标准。

因此，需要提供一种更通用且准确的识别用户设备唯一性的方法。

发明内容

鉴于上述问题，本发明提出了一种用户设备唯一性的识别方法、装置和计算设备，以力图解决或者至少解决上面存在的问题。

根据本发明的一个方面，提供一种用户设备唯一性的识别方法，适于在计算设备中执行，该方法包括：收集多个用户设备访问网络服务时生成的用户设备信息，并将每个用户设备信息和对应的用户设备标识相关联的存储为样本库中的一条记录，其中，用户设备信息包括用户设备对应的多个设备属性，用户设备标识是根据用户设备对应的多个设备属性按照预定算法生成；对样本库中的每两条记录的用户设备信息进行对比，分别计算在用户设备标识相同的情况下，每种设备属性相同和不相同的标准似然度；获取待识别的两条用户设备信息，对这两条用户设备信息对应的每种设备属性进行对比，根据对比结果获取每种设备属性对应的标准似然度，并将获取的所有标准似然度相乘得到这两条用户设备信息属于同一个用户设备的预测概率；以及通过将预测概率与概率阈值进行比较来识别这两条用户设备信息是否属于同一个用户设备。

可选地，在根据本发明的方法中，在用户设备标识相同的情况下，设备属性i相同时所对应的标准似然度为设备属性i不相同时所对应的标准似然度为其中，P(x_i＝1)为样本库中任两条记录的设备属性i相同的概率值；P(x_i＝0)为样本库中任两条记录的设备属性i不相同的概率值；P(x_i＝1∣y＝1)为样本库中任两条记录的用户设备标识相同时设备属性i相同的概率值；P(x_i＝0∣y＝1)为样本库中任两条记录的用户设备标识相同时设备属性i不相同的概率值。

可选地，在根据本发明的方法中，采用极大似然估计法来计算P(x_i＝1)、P(x_i＝0)、P(x_i＝1∣y＝1)和P(x_i＝0∣y＝1)。

可选地，在根据本发明的方法中，概率阈值适于根据以下方法获得：对样本库中的每两条记录的每种设备属性进行对比，根据对比结果获取每种设备属性对应的标准似然度，并将获取的所有标准似然度相乘得到这两条用户设备信息属于同一个用户设备的预测概率；分别统计用户设备标识相同情况下预测概率的第一核密度分布函数，以及用户设备标识不相同情况下预测概率的第二核密度分布函数，并根据第一和第二核密度分布函数来确定概率阈值。

可选地，在根据本发明的方法中，通过将预测概率与概率阈值进行比较来识别这两条用户设备信息是否属于同一个用户设备的步骤包括：如果预测概率不小于概率阈值，则判定这两条用户设备信息属于同一个用户设备，反之则属于不同的用户设备。

可选地，在根据本发明的方法中，还包括：若两条用户设备信息被判定为属于不同的用户设备，但根据预定算法计算得到的这两条用户设备信息所对应的用户设备标识相同，或者，若两条用户设备信息被判定为属于同一个用户设备，但根据预定算法计算得到的这两条用户设备信息所对应的用户设备标识不同，则输出异常。

可选地，在根据本发明的方法中，设备属性包括系统时间、机型、分辨率、idfa、serialNo、simId、wifi、系统语言、位置、时区和账号中的至少一种。

根据本发明的另一方面，提供一种用户设备唯一性的识别装置，适于驻留在计算设备中，该装置包括：样本收集单元，适于收集多个用户设备访问网络服务时生成的用户设备信息，并将每个用户设备信息和对应的用户设备标识相关联的存储为样本库中的一条记录，其中，用户设备信息包括用户设备对应的多个设备属性，用户设备标识是根据用户设备对应的多个设备属性按照预定算法生成；第一计算单元，适于对样本库中的每两条记录的用户设备信息进行对比，分别计算在用户设备标识相同的情况下，每种设备属性相同和不相同的标准似然度；第二计算单元，适于获取待识别的两条用户设备信息，对这两条用户设备信息对应的每种设备属性进行对比，根据对比结果获取每种设备属性对应的标准似然度，并将获取的所有标准似然度相乘得到这两条用户设备信息属于同一个用户设备的预测概率；以及识别单元，适于通过将预测概率与概率阈值进行比较来识别这两条用户设备信息是否属于同一个用户设备。

根据本发明的又一方面，提供一种计算设备，包括至少一个处理器；以及包括计算机程序指令的至少一个存储器；其中至少一个存储器和计算机程序指令被配置为与至少一个处理器一起使得计算设备执行如上所述的用户设备唯一性的识别方法。

根据本发明的技术方案，通过对样本库中的用户设备信息和用户设备标识进行对比分析，得到每种设备属性相同和不相同的标准似然度。通过对样本库中的每两条记录进行对比，得到了每两个记录属于同一个用户设备的预测概率。通过对得到的多个预测概率进行核密度分析，得到了概率阈值。对于待识别的两条用户设备信息，通过对比每种设备属性，选取其中每种设备属性所对应的标准似然度，并将选取到的所有标准似然度相乘，即可得到这两条设备信息属于同一用户设备的预测概率，如果该预测概率不小于概率阈值，则说明这两条设备信息属于同一个用户设备。这样，在用户设备标识不能唯一标识用户设备的情况下，本发明只要收集到待测样本的用户设备信息，就可以分析出两条设备信息是否属于同一用户设备。

另外，对于多个待识别的样本进行分析后，还可以帮助企业评估设备标识唯一识别的效率，并改进唯一标识的生成规则，还能帮助准确地统计用户数目，以及综合所有属于同一用户设备的设备信息，生成该用户的用户画像，从而可以从各方面提高企业的网络服务质量，提高用户体验。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明一个实施例的网络系统100的结构框图；

图2示出了根据本发明一个实施例的计算设备200的结构框图；

图3示出了根据本发明一个实施例的用户设备唯一性的识别方法300的流程图；

图4示出了根据本发明一个实施例的基于样本库计算得到的预测概率的第一和第二核密度分布函数的示意图；

图5示出了根据本发明一个实施例的用户设备唯一性的识别装置400的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的网络系统100的示意图。图1示出了根据本发明一个实施例的网络系统100的示意图。图1所示的网络系统100包括计算设备200、数据存储装置110以及多个用户设备120～150。应当指出，图1中的网络系统100仅是示例性的，在具体的实践情况中，网络系统100中可以有不同数量的计算设备、数据存储装置和用户设备，本发明对网络系统中所包括的计算设备、数据存储装置以及用户设备的数目不做限制，这些设施也可以驻留在多个地理位置中。

计算设备200可以实现为服务器，例如文件服务器、数据存储装置服务器、应用程序服务器和WEB服务器等，也可以实现为包括桌面计算机和笔记本计算机配置的个人计算机，还可以实现为小尺寸便携(或者移动)电子设备的一部分，这些电子设备可以是诸如手机、平板电脑、个人媒体播放器设备、无线网络浏览设备、可穿戴设备(如智能手表、智能眼镜等)、应用专用设备、或者可以包括上面任何功能的混合设备。

用户设备120～150可以是诸如手机、平板电脑、笔记本电脑、电视盒子、可穿戴设备等可以接入互联网的设备。用户设备120～150中通常安装了多个应用，某些应用的代码中嵌入了JS脚本或植入了第三方的SDK(Software Development Kit，软件开发工具包)，当用户访问这些应用的网络服务时，JS或SDK会采集用户使用该设备时的用户设备信息，其中用户设备信息包括用户设备对应的多个设备属性，例如应用名、系统时间、机型、分辨率、idfa、serialNo、simID、系统语言、用户设备mac、用户设备所处的位置、时区、苹果账号等，并将采集到的数据发送至计算设备200。之后，计算设备200会按照预定算法、根据用户设备对应的多个设备属性为该用户设备生成一个用户设备标识，并将每个用户设备信息和对应的用户设备标识相关联的存储样本库中的一条记录。其中，用户设备标识可以根据现有的预定规则生成，也可以采用开发者自定义的算法，本发明对此不作限制。

根据一个实施例，样本库可以存储在数据存储装置110中。数据存储装置110可以是数据库，其既可以作为本地数据库驻留于计算设备200中，也可以作为远程数据库设置于计算设备200之外，本发明对数据存储装置110的部署方式不做限制。根据一种实施例，数据存储装置110可以是Hadoop分布式文件系统(HDFS，Hadoop Distributed File System)。

图2布置为实现根据本发明的用户设备唯一性的识别装置400的示例计算设备200的结构框图。如图2所示，在基本配置202中，计算设备200典型地包括系统存储器206和一个或者多个处理器204。存储器总线208可以用于在处理器204和系统存储器206之间的通信。

取决于期望的配置，处理器204可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器204可以包括诸如一级高速缓存210和二级高速缓存212之类的一个或者多个级别的高速缓存、处理器核心214和寄存器216。示例的处理器核心214可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器218可以与处理器204一起使用，或者在一些实现中，存储器控制器218可以是处理器204的一个内部部分。

取决于期望的配置，系统存储器206可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器206可以包括操作系统220、一个或者多个应用222以及程序数据224。在一些实施方式中，应用222可以布置为在操作系统上利用程序数据224进行操作。

计算设备200还可以包括有助于从各种接口设备(例如，输出设备242、外设接口244和通信设备246)到基本配置102经由总线/接口控制器230的通信的接口总线240。示例的输出设备242包括图形处理单元248和音频处理单元250。它们可以被配置为有助于经由一个或者多个A/V端口252与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口244可以包括串行接口控制器254和并行接口控制器256，它们可以被配置为有助于经由一个或者多个I/O端口258和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备246可以包括网络控制器260，其可以被布置为便于经由一个或者多个通信端口264与一个或者多个其他计算设备262通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

计算设备200可以实现为小尺寸便携(或者移动)电子设备的一部分。计算设备200还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。在一些实施例中，计算设备200被配置为执行根据本发明的用户设备唯一性的识别方法300，应用222中包括根据本发明的用户设备唯一性的识别装置400。装置400可以作为搜索引擎的一个插件驻留于计算设备200的浏览器中，或作为一个独立的软件安装于计算设备200中，本发明对装置400在计算设备200中的存在形式不做限制。

如前所述，应用开发商会按照预定算法、根据用户设备的多个属性为用户设备生成一个用户设备标识，如用户设备ID。但该生成规则比较机械，在实际的数据采集过程中，经常会遇到相同的用户设备标识却有着完全不同的设备属性。比如用户更新系统后，与系统相关的设备属性全部改变，但其他的属性如机型、屏幕分辨率、内存大小等属性却不会改变，这时系统就有可能认为更新前后的记录属于不同的设备，从而生成不同的用户设备标识。还有一种情况是不同的用户设备标识却有着极为相似的设备属性，比如有的应用开发商，为了提高自己的应用下载量和安装量，恶意通过手机模拟器来从应用商店上下载自己的应用。这个手机模拟器可以随意修改自己的手机属性，使得收集到的用户设备标识不能唯一识别用户设备。

因此，本发明提供了一种在用户设备标识不能唯一识别用户设备的情况下，根据收集到的设备属性来判断两条用户设备信息是否属于同一个用户设备的方法。应当说明的是，结合具体的用户设备标识生成原理，收集到的设备属性数据基本会满足以下条件：1)在实际采集数据时，用户设备标识重复的情况并不多见，即大部分情况下，用户设备标识能够较好地唯一识别用户设备，只有少数情况存在用户设备标识冲突(如不同的用户设备有着相同的用户设备ID)和用户设备标识变异(如相同的用户设备却有不同的用户设备)。2)各种属性之间条件无关，也就是在已知用户设备标识相同或者不相同的条件下，各个设备属性之间条件无关。

本发明主要依据的是在统计学中被广泛使用的贝叶斯方法(Bayesian Method)的原理。贝叶斯方法提供了一种计算假设概率的方法，这种方法是基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身而得出的。其方法为，将关于未知参数的先验信息P(x_i)与样本信息P(x_i|y综合，再根据贝叶斯公式，得出后验信息P(y|x₁，x₂，…，x_n)，然后根据后验信息去推断未知参数的方法。

设x₁，x₂，…，x_n为用户设备的各种属性(n为设备属性的数量)，如屏幕分辨率，系统语言，系统版本等。y为用户设备标识是否相同的标签，y＝1表示用户设备标识相同，y＝0表示用户设备标识不相同。

将设备属性两两相比，这些属性的对比结果一共可能有3种可能：

1)x_i＝0：对比的两个设备属性i不相同

2)x_i＝1：对比的两个设备属性i相同

3)x_i＝NA：若对比的两个设备属性中任意一个数据为空，则不可比。

根据贝叶斯公式，在已知用户设备各个属性x₁，x₂，…，x_n是是否相同的条件下，用户设备标识y相同的概率为：

所以，利用贝叶斯公式估计出的值，就可以计算出P(y|x₁，x₂，…，x_n)的概率。若这个概率大于一定的阈值，就可认为两个用户设备的相似性非常强，应该评定为属于同一个用户设备；若小于一定的阈值，则认为用户设备的相似性较弱，应该判定为属于不同的用户设备。

图3示出了根据本发明一个实施例的用户设备唯一性的识别方法300，适于计算设备200中执行。

如图3所示，该方法始于步骤S310。在步骤S310中，收集多个用户设备访问网络服务时生成的用户设备信息，并将每个用户设备信息和对应的用户设备标识相关联的存储为样本库中的一条记录。其中，用户设备信息包括用户设备对应的多个设备属性，用户设备标识是根据用户设备对应的多个设备属性按照预定算法生成。

随后，在步骤S320中，对样本库中的每两条记录的用户设备信息进行对比，分别计算在用户设备标识相同的情况下，每种用户设备属性相同和不相同的标准似然度。

具体地，将样本库中的数据整理成结构化的N*M维矩阵。其中N为样本库的记录数，M为每条记录的属性数。将记录两两相比(如表1所示)，并将比较的结果存储为M*N(N-1)/2维的矩阵。

表1

之后，计算每种用户设备属性相同和不相同的标准似然度。其中，在用户设备标识相同的情况下，

设备属性i相同时所对应的标准似然度为

设备属性i不相同时所对应的标准似然度为

设备属性i不可比时所对应的标准似然度设为1。

在上述公式，P(x_i＝1)为样本库中任两条记录的设备属性i相同的概率值；

P(x_i＝0)为样本库中任两条记录的设备属性i不相同的概率值；

P(x_i＝1∣y＝1)为样本库中任两条记录的用户设备标识相同时设备属性i相同的概率值；

P(x_i＝0∣y＝1)为样本库中任两条记录的用户设备标识相同时设备属性i不相同的概率值。

具体地，可以采用极大似然估计法来计算P(x_i＝1)、P(x_i＝0)、P(x_i＝1∣y＝1)和P(x_i＝0∣y＝1)，上述四个概率值的极大似然估计值分别为：

其中，N为样本库中的总的记录条数；

#I(x_i＝1)和#I(x_i＝0)分别为样本库的所有记录中设备属性i相同和不相同的记录条数；

#I(y＝1)为样本库的所有记录中设备标识相同的记录条数；

#I(x_i＝1,y＝1)为样本库的所有记录中设备标识相同且设备属性也相同的记录条数；

#I(x_i＝0,y＝1)为样本库的所有记录中设备标识相同且设备属性不相同的记录条数。

表2

对于公式3)，如表2所示，在样本库的12条用户设备信息的记录中(N＝12)，设备ID＝1的记录有3个，ID＝2的记录有5个，ID＝3的记录有2个，ID＝4和ID＝5的都各只有1个，则分母的#I(y＝1)＝3+5+2＝10。也就是，本发明在统计各个数目时，只要某个设备标识的数目出现两次以上(包括两次)，就将该设备标识的数目计入#I(y＝1)的总数中。

进一步的，设备号ID＝1的3个记录中有2个设备属性1(机型)为A，ID＝2的5个记录中有2个机型为C，有2个机型为D，一个机型为E；ID＝3的2个记录的机型分别为F和G，则分子的#I(x₁＝1,y＝1)＝2+2+2＝6。这里同样是将满足设备标识相同且设备属性也相同的记录条数求总和。这样，就可计算说明在涉及到设备标识相同的设备中，有0.6的概率会涉及到属性1也相同的情况。

根据同样方法，可以统计得到其他所有设备属性的各个参数，并进而得到上述四个概率值，以及每种属性相同和不相同时的标准似然度，表3示出了根据本发明一个实施例的计算得到的各个属性的标准似然度。

表3

随后，在步骤S330中，获取待识别的两条用户设备信息，对这两条用户设备信息对应的每种用户设备属性进行对比，根据对比结果获取每种用户设备属性对应的标准似然度，并将获取的所有标准似然度相乘得到这两条用户设备信息属于同一个用户设备的预测概率。

具体的，如表4所示，若这两条用户设备信息中，系统时间不可比，则选取表3中系统时间不可比时的标准似然度为1；机型不相同，则选取表3中机型不相同时的标准似然度为0.07813697；位置相同，则选取表3中位置相同时的标准似然度为1.997727。将最终选取的所有属性的标准似然度相乘，即可得到这两条用户设备信息属于同一个用户设备的预测概率为0.0015677。

表4

设备属性	是否相同	对应的标准似然度
			系统时间	NA	1
机型	0	0.07813697
			分辨率	0	0.07463224
Idfa	NA	1
			serialNo	NA	1
simId	NA	1
			系统语言	0	0.07813697
位置	1	1.997727
			时区	1	1.72226
苹果账号	NA	1
			预测概率		0.0015677

这里，需要说明的是，两条用户设备信息属于同一个用户设备的预测概率的计算公式为：

其中，P(y)为任两条记录的用户设备标识相同的概率值，其是通过样本库统计得到的，对该样本库而言是一个固定值，在计算待识别的两条设备信息的预测概率和确定概率阈值中，其值是一样的，对最后的分析结果并没有影响。因此，在上述公式的最后一步中将其省略了，而直接将各属性的标准似然度的乘机作为预测概率P(y|x₁,x₂,…,x_n)。

随后，在步骤S340中，通过比较预测概率与概率阈值来识别这两条用户设备信息是否属于同一个用户设备。如果预测概率不小于概率阈值，则判定这两条用户设备信息属于同一个用户设备，反之则属于不同的用户设备。其中，概率阈值可以由本领域技术人员根据经验或者实际的数据情况获得，本发明对阈值确定的具体方法不作限定。

根据一个实施例，概率阈值可以根据以下方法获得：对样本库中的每两条记录的每种设备属性进行对比，根据对比结果获取每种设备属性对应的标准似然度，并将获取的所有标准似然度相乘得到这两条用户设备信息属于同一个用户设备的预测概率。通过对样本库中的两条记录进行对比，可以得到一个预测概率；通过每两条对比后就得到一个预测概率值的集合，集合中的每个预测概率都对应两条记录对比的结果。比如，如果样本库中有N条记录，则对每条进行对比后可以得到N(N-1)/2个预测概率。而每个预测概率所对应的两条记录，在之前的步骤中已经判断了这两条记录的用户设备标识是否相同。所以，本发明通过将样本库中任两条记录进行对比后，都得到了这两条记录属于同一个设备的预测概率，以及这两条记录的设备标识是否相同的对应关系。

之后，可以利用获取到的每两条记录的预测概率，以及这两条记录的设备标识是否相同的信息来进行统计分析，以确定概率阈值。如可以通过生成预测概率的直方图、核密度分布图等方法来确定阈值，当然也可以采取其他常见的数据分析方法，本发明对此不作限制。

根据一个实施例，采用核密度估计的方法来确定阈值，核密度估计是对分布的一种统计学上常用的估计方法，是在概率论中用来估计未知的密度函数，属于非参数检验方法之一。核密度估计方法相对于直方图法，多了一个用于平滑数据的核函数，这个核函数可以选取现有的任意一种核函数，本发明对核密度估计的函数形式不作具体限定。

概率阈值可以通过现有的核密度估计函数的参数项来确定，也可以通过核密度分布图来直观地确定，本发明对此不作限制。根据一个实施例，可以通过结合两条记录的预测概率及两条记录的设备标识是否相同，分别统计得到用户设备标识相同情况下预测概率的第一核密度分布函数，以及用户设备标识不相同情况下预测概率的第二核密度分布函数。之后，根据该第一和第二核密度分布函数来确定该概率阈值。

图4示出了根据本发明一个实施例的第一核密度分布函数和第二核密度分布函数的示意图。如图4所示，横坐标是对样本库进行统计后计算得到的预测概率的对数(为了调整数量级所以取了对数)，纵坐标表示每个预测概率的密度(代表每个预测概率在所有的预测概率中的密度)，左侧的分布曲线代表参与对比的两个用户设备标识不同，右侧的分布曲线代表参与对比的两个用户设备标识相同。在能够尽可能将两条曲线分开的位置，可以将其设置为概率阈值。如可以将概率阈值设置为图4中两条曲线的各最大波峰之间的任一位置所对应的横坐标，也可以设定为两个最大波峰所对应横坐标的平均值或加权平均值。当然，还可以设置为两条曲线重叠区域的某一值，如图4中两条虚线中间的任一横坐标值；或者设置为两条曲线重叠区域的中间值，如图4中的实线所对应的横坐标值。当然，还可以根据实际数据情况设置为其他数值，本发明对此不作限定。

另外，方法300还可以包括：若两条用户设备信息被判定为属于不同的用户设备，但这两条用户设备信息所对应的用户设备标识相同，则输出异常。或者，若两条用户设备信息被判定为属于同一个用户设备，但这两条用户设备信息所对应的用户设备标识不同，也可以输出异常，并生成一个唯一的标识号来标识这两条记录所对应的用户设备。对于识别出来的异常数据，可以帮助企业分析数据采集过程中可能存在的问题，例如用户刷机、模拟器等造成的虚假数据。

这样，本发明除了可以解决用户设备唯一性的识别问题，还可以帮助企业评估用户唯一标识的效率，并改进唯一标识的生成规则。具体来说：如果根据原有规则生成了用户设备信息所对应的用户设备标识，但却经常出现ID冲突或ID变异的现象，或者最后的判定结果中经常出现两条记录的设备标识相同但被判定为属于不同的用户设备，或设备标识不同但被判定为属于不同的用户设备，则说明需要进一步改进原有的设备标识生成规则，以提高用户唯一标识的效率。

另外，如果有多条用户设备信息都被判定为属于同一用户设备的，并用了一个唯一的标识号来标注这个设备，就可以通过综合这多条用户设备信息所对应的设备记录来生成全面的用户画像，方便企业为其提供针对性的网络服务。而且，对多条用户设备信息进行判定后，企业可以准确分析出哪些可能是虚假数据，进一步保证了用户数目的准确统计。

图5示出了根据本发明一个实施例的用户设备唯一性的识别装置400的结构框图，适于驻留在计算设备中，该装置包括：样本收集单元410、第一计算单元420、第二计算单元430和识别单元440。

样本收集单元410适于收集多个用户设备访问网络服务时生成的用户设备信息，并将每个用户设备信息和对应的用户设备标识相关联的存储为样本库中的一条记录。其中，用户设备信息包括用户设备对应的多个设备属性，用户设备标识是根据用户设备对应的多个设备属性按照预定算法生成。

第一计算单元420适于对样本库中的每两条记录的用户设备信息进行对比，分别计算在用户设备标识相同的情况下，每种设备属性相同和不相同的标准似然度。具体地，第一计算单元420可以分别统计所述样本库的所有记录中用户设备标识和每种设备属性相同或不相同的数目，并根据统计结果计算所述每种设备属性相同和不相同的标准似然度。

第二计算单元430适于获取待识别的两条用户设备信息，对这两条用户设备信息对应的每种设备属性进行对比，根据对比结果获取每种设备属性对应的标准似然度，并将获取的所有标准似然度相乘得到这两条用户设备信息属于同一个用户设备的预测概率。

识别单元440适于将所述预测概率与概率阈值进行比较，来识别这两条用户设备信息是否属于同一个用户设备。具体地，如果计算得到的预测概率不小于概率阈值，则判定这两条用户设备信息属于同一个用户设备，反之则属于不同的用户设备。

根据一个实施例，装置400还包括阈值确定单元(图中未示出)，适于根据以下方法确定概率阈值：对样本库中的每两条记录的每种设备属性进行对比，根据对比结果获取每种设备属性对应的标准似然度，并将获取的所有标准似然度相乘得到这两条用户设备信息属于同一个用户设备的预测概率；分别统计用户设备标识相同情况下预测概率的第一核密度分布函数，以及用户设备标识不相同情况下预测概率的第二核密度分布函数，并根据该第一和第二核密度分布函数来确定概率阈值。

根据另一个实施例，装置400还包括异常检测单元(图中未示出)，适于当两条用户设备信息被判定为属于不同的用户设备，但根据所述预定算法计算得到的这两条用户设备信息所对应的用户设备标识相同时，或者，当两条用户设备信息被判定为属于同一个用户设备，但根据预定算法计算得到的这两条用户设备信息所对应的用户设备标识不同时，输出异常。

根据本发明的用户设备唯一性的识别装置400，其具体细节已在基于图1-图4的描述中详细公开，在此不再赘述。

根据本发明的技术方案，通过对样本库中的用户设备信息和用户设备标识进行对比分析，得到每种设备属性相同和不相同的标准似然度，以及每两个记录属于同一个用户设备的预测概率，并进而确定了预测概率的概率阈值。对于待识别的两条用户设备信息，根据其每种设备属性是否相同，选取该属性所对应的标准似然度，并将选取到的所有标准似然度相乘，即可得到这两条设备信息属于同一用户设备的预测概率。如果该预测概率不小于概率阈值，则说明这两条设备信息属于同一个用户设备。这样，在用户设备标识不能唯一识别用户设备的情况下，本发明只要收集到待测样本的用户设备信息，就可以分析出两条设备信息是否属于同一用户设备。

如果有多条设备信息属于同一个用户设备，则可以用一个唯一的标识号来标注这些设备信息所对应的设备，还可以综合这几个设备信息所对应的设备记录，生成该用户的用户画像，以便企业针对性地对该用户提供网络服务。而对于识别出来的异常数据，则可以帮助企业分析数据采集过程中可能存在的问题，例如存在用户刷机、模拟器等造成虚假数据，方便企业进行数据分析。

B10、如B8所述的装置，其中，所述第一计算单元适于采用极大似然估计法来计算P(x_i＝1)、P(x_i＝0)、P(x_i＝1∣y＝1)和P(x_i＝0∣y＝1)。

B11、如B8所述的装置，还包括阈值确定单元，适于根据以下方法确定所述概率阈值：对样本库中的每两条记录的每种设备属性进行对比，根据对比结果获取每种设备属性对应的标准似然度，并将获取的所有标准似然度相乘得到这两条用户设备信息属于同一个用户设备的预测概率；分别统计用户设备标识相同情况下预测概率的第一核密度分布函数，以及用户设备标识不相同情况下预测概率的第二核密度分布函数；以及根据所述第一和第二核密度分布函数确定所述概率阈值。

B12、如B8所述的装置，其中，所述识别单元适于根据以下方法计算来识别两条用户设备信息是否属于同一个用户设备：如果所述预测概率不小于所述概率阈值，则判定这两条用户设备信息属于同一个用户设备，反之则属于不同的用户设备。

B13、如B8所述的装置，还包括异常检测单元，适于：当两条用户设备信息被判定为属于不同的用户设备，但根据所述预定算法计算得到的这两条用户设备信息所对应的用户设备标识相同时，或者，当两条用户设备信息被判定为属于同一个用户设备，但根据所述预定算法计算得到的这两条用户设备信息所对应的用户设备标识不同时，输出异常。

B14、如B8所述的装置，其中，所述设备属性包括系统时间、机型、分辨率、idfa、serialNo、simId、wifi、系统语言、位置、时区和账号中的至少一种。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的用户设备唯一性的识别方法。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种用户设备唯一性的识别方法，适于在计算设备中执行，该方法包括：

收集多个用户设备访问网络服务时生成的用户设备信息，并将每个用户设备信息和对应的用户设备标识相关联的存储为样本库中的一条记录，其中，所述用户设备信息包括用户设备对应的多个设备属性，所述用户设备标识是根据用户设备对应的多个设备属性按照预定算法生成；

对样本库中的每两条记录的用户设备信息进行对比，分别计算在用户设备标识相同的情况下，每种设备属性相同和不相同的标准似然度；

获取待识别的两条用户设备信息，对这两条用户设备信息对应的每种设备属性进行对比，根据对比结果获取每种设备属性对应的标准似然度，并将获取的所有标准似然度相乘得到这两条用户设备信息属于同一个用户设备的预测概率；以及

通过比较所述预测概率与概率阈值来识别这两条用户设备信息是否属于同一个用户设备。

2.如权利要求1所述的方法，其中，在用户设备标识相同的情况下，

设备属性i相同时所对应的标准似然度为

设备属性i不相同时所对应的标准似然度为

其中，P(x_i＝1)为样本库中任两条记录的设备属性i相同的概率值；

P(x_i＝1∣y＝1)为样本库中任两条记录的用户设备标识相同时，设备属性i相同的概率值；

P(x_i＝0∣y＝1)为样本库中任两条记录的用户设备标识相同时，设备属性i不相同的概率值。

3.如权利要求2所述的方法，其中，采用极大似然估计法来计算P(x_i＝1)、P(x_i＝0)、P(x_i＝1∣y＝1)和P(x_i＝0∣y＝1)。

4.如权利要求1所述的方法，其中所述概率阈值适于根据以下方法获得：

对样本库中的每两条记录的每种设备属性进行对比，根据对比结果获取每种设备属性对应的标准似然度，并将获取的所有标准似然度相乘得到这两条用户设备信息属于同一个用户设备的预测概率；

分别统计用户设备标识相同情况下预测概率的第一核密度分布函数，以及用户设备标识不相同情况下预测概率的第二核密度分布函数；以及

根据所述第一和第二核密度分布函数来确定所述概率阈值。

5.如权利要求1所述的方法，其中，所述将所述预测概率与概率阈值进行比较，来识别这两条用户设备信息是否属于同一个用户设备的步骤包括：

如果所述预测概率不小于所述概率阈值，则判定这两条用户设备信息属于同一个用户设备，反之则属于不同的用户设备。

6.如权利要求1所述的方法，还包括：

若两条用户设备信息被判定为属于不同的用户设备，但根据所述预定算法计算得到的这两条用户设备信息所对应的用户设备标识相同，或者，若两条用户设备信息被判定为属于同一个用户设备，但根据所述预定算法计算得到的这两条用户设备信息所对应的用户设备标识不同，则输出异常。

7.如权利要求1所述的方法，其中，所述设备属性包括系统时间、机型、分辨率、idfa、serialNo、simId、wifi、系统语言、位置、时区和账号中的至少一种。

8.一种用户设备唯一性的识别装置，适于驻留在计算设备中，该装置包括：

样本收集单元，适于收集多个用户设备访问网络服务时生成的用户设备信息，并将每个用户设备信息和对应的用户设备标识相关联的存储为样本库中的一条记录，其中，所述用户设备信息包括用户设备对应的多个设备属性，所述用户设备标识是根据用户设备对应的多个设备属性按照预定算法生成；

第一计算单元，适于对样本库中的每两条记录的用户设备信息进行对比，分别计算在用户设备标识同的情况下，每种设备属性相同和不相同的标准似然度；

第二计算单元，适于获取待识别的两条用户设备信息，对这两条用户设备信息对应的每种设备属性进行对比，根据对比结果获取每种设备属性对应的标准似然度，并将获取的所有标准似然度相乘得到这两条用户设备信息属于同一个用户设备的预测概率；以及

识别单元，适于通过比较所述预测概率与概率阈值来识别这两条用户设备信息是否属于同一个用户设备。

9.如权利要求8所述的装置，其中，在用户设备标识相同的情况下，

设备属性i相同时所对应的标准似然度为

设备属性i不相同时所对应的标准似然度为

P(x_i＝1∣y＝1)为样本库中任两条记录的用户设备标识相同时设备属性I也相同的概率值；

10.如权利要求9所述的装置，其中，所述第一计算单元适于采用极大似然估计法来计算P(x_i＝1)、P(x_i＝0)、P(x_i＝1∣y＝1)和P(x_i＝0∣y＝1)。

11.如权利要求8所述的装置，还包括阈值确定单元，适于根据以下方法确定所述概率阈值：

根据所述第一和第二核密度分布函数确定所述概率阈值。

12.如权利要求8所述的装置，其中，所述识别单元适于根据以下方法计算来识别两条用户设备信息是否属于同一个用户设备：

13.如权利要求8所述的装置，还包括异常检测单元，适于：

当两条用户设备信息被判定为属于不同的用户设备，但根据所述预定算法计算得到的这两条用户设备信息所对应的用户设备标识相同时，或者，当两条用户设备信息被判定为属于同一个用户设备，但根据所述预定算法计算得到的这两条用户设备信息所对应的用户设备标识不同时，输出异常。

14.如权利要求8所述的装置，其中，所述设备属性包括系统时间、机型、分辨率、idfa、serialNo、simId、wifi、系统语言、位置、时区和账号中的至少一种。

15.一种计算设备，包括：

至少一个处理器；以及

包括计算机程序指令的至少一个存储器；

所述至少一个存储器和所述计算机程序指令被配置为与所述至少一个处理器一起使得所述计算设备执行如权利要求1-7中任一项所述的方法。