CN110648172A

CN110648172A - 一种融合多种移动设备的身份识别方法和系统

Info

Publication number: CN110648172A
Application number: CN201910831509.3A
Authority: CN
Inventors: 陈艺方; 张猛; 林小俊
Original assignee: Beijing Yishang Huiping Network Technology Co Ltd
Current assignee: Beijing Yishang Huiping Network Technology Co Ltd
Priority date: 2019-09-04
Filing date: 2019-09-04
Publication date: 2020-01-03
Anticipated expiration: 2039-09-04
Also published as: CN110648172B

Abstract

本发明涉及一种融合多种移动设备的身份识别方法和系统。该方法包括：1)获取来源于不同移动设备的数据，从中抽取出标识用户身份的ID信息；2)根据抽取的ID信息生成<用户ID，ID类别，ID信息>的三元映射关系，并计算所述三元映射关系的权重；3)根据用户使用移动设备的时间距离当前时间的差值，以及所述三元映射关系的权重，计算移动设备的活跃度参数，根据所述活跃度参数识别并过滤无效ID，得到有效ID；4)应用D‑S证据理论并结合所述活跃度参数，计算各种有效ID的可信度；5)根据有效ID的可信度和目标判定规则对用户进行识别。本发明能够融合多种移动设备的ID信息，准确地标识一个用户。

Description

一种融合多种移动设备的身份识别方法和系统

技术领域

本发明属于信息技术、数据挖掘技术领域，涉及构建精准用户画像、精准营销、程序化广告投放等领域，具体涉及一种融合多种移动设备的身份识别方法。

背景技术

随着移动广告高峰期的到来以及电商活动的增多，中国移动互联网市场规模进一步增长，市场整体规模已超过8万亿，且处于活跃的移动设备数量已达到10亿以上。

用户在使用过程中，一个用户的行为信息、属性数据等往往被分散在很多不同的数据源中，每个数据源皆有各自定义的UID(User Identification，即用户身份标识，用户在注册或登录后，系统会自动生成)用来标识用户，从而造成了用户ID的零碎化。因此，根据单一的数据源进行用户的分析、挖掘，只能获取其片面的信息，而融合多种移动设备的身份识别方法致力于将碎片化的信息融合起来，准确的识别用户，使得在不同的领域都能提供完整的用户画像。

当前一个用户可以利用如下多种硬件设备码生成的统一的移动设备唯一标识产生关联，包括：

IDFA，苹果设备的广告标识，一定程度上可以认为是苹果的设备号；

IDFV，苹果设备提供给供应商的唯一标识符；

IMEI，安卓设备可获取的设备号，在移动电话网络中识别每一部独立的手机等行动通讯装置；

IMSI，手机SIM卡的标识信息；

MAC，网络设备号，为网卡的标识，用来定义网络设备的位置；

IP，运营商分配给上网设备的地址；

GPS，终端设备采集到的用户地理位置信息；

DEVICENAME，用户所填写设备昵称。

那么如何融合一个用户的多个身份标识以精准地标识一个用户？传统方式存在以下三个方面的难点：

一是数据采集系统的需求变化。在移动互联网流量剧增的背景下，目前传统的基于PC网站或者访问日志的方式采集用户数据的系统已经无法满足实时分析用户行为、实时统计流量属性等方面的需求。

二是身份ID标识的有效性。对于行业中各类造假，例如：虚拟机造假，安卓系统常用的IMEI，MAC，设备序列号，以及IMSI和IOS系统常用的IDFA、IDFV等设备信息，可被篡改，随Rom或者软件的卸载与重新安装等而发生改变。同时，因用户对移动设备的更换频率、刷机等因素需求不同，会存在大量无效身份ID标识，导致存在一个用户有多种不同的身份ID或多种不同类型的身份ID。

三是精准地标识一个用户。对于一个用户有效的多种身份ID标识，存在大量多值映射问题，即用户与身份ID标识之间是“多对多”的关系，导致单一的ID标识可能存在于多个用户中，无法进行准确的标识。这些都是实际应用中亟待解决的问题。

当前大部分方法为了解决上述问题，仅通过一对一ID映射数据的关联及多对多ID映射时的人工分析，效率非常低，且准确率难以控制。因此，亟需在复杂的ID标识关联关系中构建ID Mapping(ID映射)系统，通过设计合理的ID抽取算法，使用ID映射技术，并过滤无效ID标识，将单个用户的多种有效身份标识信息融合，准确的识别用户。

发明内容

本发明针对上述问题，提出一种融合多种移动设备的身份识别方法和系统，用于准确地标识一个用户。

本发明利用无痕埋点技术实时采集用户行为数据，写入消息队列，获取到结构化、非结构化(文本信息)数据。首先，进行数据解析，抽取出唯一标识用户身份的ID信息，避免无用信息对身份融合过程中的干扰；其次，进行ID映射，识别无效ID；最后，针对有效ID计算可信度，进而实现一种融合多种移动设备的身份识别方法。

本发明采用的技术方案如下：

一种融合多种移动设备的身份识别方法，主要包括如下步骤：

1)获取来源于不同移动设备的数据，从中抽取出标识用户身份的ID信息；

2)根据抽取的ID信息生成<用户ID，ID类别，ID信息>的三元映射关系，并计算所述三元映射关系的权重；

3)根据用户使用移动设备的时间距离当前时间的差值，以及所述三元映射关系的权重，计算移动设备的活跃度参数，根据所述活跃度参数识别并过滤无效ID，得到有效ID；

4)应用D-S证据理论并结合所述活跃度参数，计算各种有效ID的可信度；

5)根据有效ID的可信度和目标判定规则对用户进行准确地识别。

进一步地，步骤1)包括：

1.1)利用无痕埋点，获取多种移动设备的不同页面来源的用户行为数据(目的是较全面的获取一个人的多种移动设备的数据)；

1.2)对不同的数据定义及数据存储形式，利用统一的标准对数据进行规范化处理；

1.3)对规范化处理后的数据抽取ID信息；

1.4)对抽取ID信息进行数据清洗，检测异常设备，初步过滤ID标识；

进一步地，步骤1.1)所述埋点相关技术为客户端SDK(Software DevelopmentKit，软件开发工具包)通过Http(s)/Tcp/Udp协议根据特定的网络环境采用特定的策略将数据发送到服务器，服务器将采集的数据实时写入Kafka分布式消息队列系统，同时获取由客户端SDK统一生成的用户标识，然后服务器将用户业务操作日志信息写入Kafka队列，最后将其写入到数据存储层HDFS，通过Hive或Spark进行数据的分析。

进一步地，步骤1.2)所述规范化处理包括：统一中英文，统一全角半角字符，以及繁体中文转简体中文，滤除test、iphone等。

进一步地，步骤1.3)所述抽取ID信息即从采集的数据中抽取出能唯一标识一个用户的身份信息，包括：IDFA、IMEI、NICKNAME等。

进一步地，步骤1.4)所述数据清洗(Data cleaning)首先，通过先验知识进行初步清洗，其次，除了手动检查数据或者数据样本之外，通过详尽的数据分析来检测数据中的错误或不一致情况，及通过获得数据属性的元数据，从而发现数据集中存在的质量问题。

进一步地，步骤2)所述<用户ID，ID标识，ID信息>的三元映射关系，其中，用户ID为不同来源的内部ID，例如，UID；ID标识即上述提到的能唯一标识用户的身份标识；ID信息即该类ID标识对应的值。采用CDF-AICF算法计算每种标识对不同用户的指示程度，即在传统的TF-IDF算法基础上，充分考虑特征与类别的关系。传统的算法是用以评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度，而CDF-AICF算法充分利用了词语的频率信息，把文档频率分成不同词频在不同类别下的文档频率，本发明中主要作为一个ID标识与用户之间相关程度的度量或评级。

进一步地，步骤3)所述过滤无效ID标识，根据统计的方法分析用户行为数据，确定用户使用该设备的时间距离当前时间的差值，结合CDF-AICF结果，计算设备活跃度参数，进而过滤长期不活跃的身份ID标识。

进一步地，步骤4)所述计算可信度，包括：首先，进行融合问题的数学建模，即确定融合问题的识别框架，即{A,B,C,......，N}，其中A～N分别表示一个用户，是一个表示识别结果可能答案的互不相容事件的完备集合；其次，给出各种有效ID标识在识别框架上的基础概率分配m(A)、m(B)、m(C)、……m(N)；最后，进行知识的融合过程。

进一步地，步骤5)所述采用基于基本可信度分配的方法，确定目标判定规则，进而准确的识别用户。

基于同一发明构思，本发明还提供一种融合多种移动设备的身份识别系统，其包括：

ID抽取模块，负责获取来源于不同移动设备的数据，从中抽取出标识用户身份的ID信息；

ID映射模块，负责根据抽取的ID信息生成<用户ID，ID类别，ID信息>的三元映射关系，并计算所述三元映射关系的权重；

ID过滤模块，负责根据用户使用移动设备的时间距离当前时间的差值，以及所述三元映射关系的权重，计算移动设备的活跃度参数，根据所述活跃度参数识别并过滤无效ID，得到有效ID；

可信度计算模块，负责应用D-S证据理论并结合所述活跃度参数，计算各种有效ID的可信度；

目标判定模块，负责根据有效ID的可信度和目标判定规则对用户进行识别。

进一步地，所述ID抽取模块包括：

数据采集子模块，负责利用无痕埋点获取不同来源的数据；

文本规范化子模块，负责对不同的数据定义及数据存储形式，利用统一的标准对数据进行规范化处理；

ID抽取子模块，负责对规范化处理后的数据抽取ID信息；

数据清洗子模块，负责对抽取的ID信息进行数据清洗。

与现有技术相比，本发明的积极效果为：

本发明相较于基于单一ID标识进行的用户识别，有效用户占比降低了6％，同时用户识别的准确率提高10％。而且，使用的历史数据时间窗越长就越精准。

附图说明

图1是本发明的融合多种移动设备的身份识别方法的步骤流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实例和附图，对本发明做进一步说明。

本发明是一种融合多种移动设备的身份识别方法，用于融合多种身份标识准确的识别用户。本发明思路是：首先，抽取ID信息，通过采集多种来源的数据，对初始数据进行相关预处理，包括：数据规范化、用户唯一标识ID信息抽取、数据清洗等；其次，进行ID映射，并基于CDF-AICF算法结合活跃度参数识别无效ID；然后，应用D-S证据理论，通过融合多种身份信息计算可信度；最后，基于可信度和判别准则准确的识别用户。

本发明的融合多种移动设备的身份识别方法分为五大阶段：

1、ID信息抽取。ID信息是指唯一标识一个用户的信息，例如MAC地址、IDFA、设备名称等等。该阶段从不同埋点的信息中，抽取出关键的能标识一个用户身份的ID信息。该阶段更具体的步骤如下：

1)数据采集。利用无痕埋点技术采集到一些基本的用户行为数据，比如设备的基本信息，用户执行的基本操作等，是ID信息的抽取基础。

2)数据规范化。该步骤包括统一数据标准，并过滤无用信息。

3)ID信息抽取。该步骤确定要抽取的ID信息，并将其从用户行为数据中抽取出来。

4)数据清洗。该步骤先根据先验知识进行初步清洗，之后通过规则和统计的方法进一步清洗。

2、ID映射。生成<用户ID，ID类别，ID信息>的三元映射关系，并给出该映射关系的权重。

3、识别无效ID。根据用户使用移动设备的时间距离当前时间的差值，例如：一个月内使用，以及上述映射关系的权重，计算活跃度参数以判断设备是否有效。

4、计算可信度。可信度是指所有身份标识融合成一个新的标识后对识别出的用户的信任程度。该阶段我们使用第一阶段抽取的ID信息，进行ID映射，过滤掉无效ID后，通过使用D-S证据理论的知识融合方法计算各种有效ID对识别出的用户的最大可信度，用于准确的识别用户。

5、用户识别。根据可信度，采用一定的判别准则，确定获得最大可信度的可能性，并准确的识别用户。

图1是本发明一个实施例的融合多种移动设备的身份识别方法的步骤流程图，主要包括如下步骤：

步骤1：数据采集。

该数据采集主要是利用无痕埋点相关技术，实时获取并将用户行为数据存储至kafka消息队列，便于进行实时的数据分析，减少开发人员工作量，获取的数据全面且无遗漏。

步骤2：文本规范化。

一是将拥有相同意义的不同文本转换成统一格式，二是将文本中无意义并且干扰后续处理的内容进行删除。具体的规范化的内容有：

1、统一中英文

对于身份ID标识“UnKnown”、“unknown”、“unknow”、“未知”等皆处理为“unknown”，即未获取到该身份ID标识

2、统一全角半角字符

设备昵称中包含字符，将其格式统一。

3、繁体中文转简体中文

设备昵称中包含繁体和简体中文，统一转换成简体。

4、滤除test、iphone、空值、administrator、异常值

步骤3：抽取ID信息。

抽取ID信息，目的是从采集的数据中抽取出能唯一标识一个用户的身份信息，经过该步骤后，得到的是每个内部用户及其对应的多种ID标识类型及标识值。

1、人工查看多来源数据。因不同来源数据获取的特征不同，因此，查看过程中，每个来源不低于100条，整理各个来源数据中ID标识的类型，形成ID标识类型集合，将该集合记为Lex。

2、提取唯一ID标识。根据ID标识的类型集合Lex进行提取并结构化。比如，将不属于ID标识集合的内容替换成OTHER。例如：将ID为“IDFA”的内容结构化为{"IDFA":"***14066-4953-4A7D-BBDC-663D9EE9F***"}

步骤4：数据清洗

首先，根据现有经验知识进行清洗，例如，根据IOS 7中苹果封杀MAC地址，使用之前的方法获取到的MAC地址全部都变成了“02:00:00:00:00:00”；因刷机等行为可能使IMEI号为“00000000”。

然后，根据数据特有的形式建立规则，并进行人工校验。基于统计的方法，例如，经统计分析，IDFA存在“idfv_34105D98-5890-444E-AB22-3AB5C6C88CB6”，IMEI存在“a0000004f628342”等形式。因此，定义IMEI应符合规则“^[0-9a-zA-Z]{14，15}$”；IDFA应符合规则“^([0-9a-zA-Z]{1,})(([-][0-9a-zA-Z]{1,}){4})$”等。

步骤5：ID映射

该步骤主要目的是生成<用户ID，ID类别，ID信息>的三元映射关系，并给出该映射关系的可信程度。其中，三元映射关系中的用户ID即不同来源的能标识一个用户的内部ID，例如：uid或clientid等；ID类别，即能唯一标识用户的ID标识，例如：MAC、IDFA、IMEI等；ID信息即为ID标识对应的值信息。而映射关系的可信程度，即利用CDF-AICF算法计算不同标识对某一用户的指示程度。

CDF-类别相关文档频率。即特征对类别的表现力，类别中出现特征的文档数越多，特征对类别越重要，应赋予越高的权重。在本发明中主要指的是某一个给定的ID标识与给定用户同时出现的文档频率。该频次越高，则该用户使用该设备越频繁，即ID标识对用户的指示程度越高。它可表示为：CDF(t_i,f_j)。

CDF(t_i,f_j)＝df_i,c，其中，t_i为特征词，即身份ID标识；f_j为词频；df_i,c为关联类别c中包含特征t_i的文档数。

获取CDF的主要步骤为：首先根据特征词的词频信息，获取特征词在该词频下的文档频率在类别中的分布，把文档频率的类别作为该特征词在该词频下与之关联的类别，把该类别下的文档频率作为特征的CDF值。

AICF-平均逆类频率。即特征对类别的区分力，大多数类别都出现的特征对类别的区分能力弱，特征对类别的区分能力与其类频率成反比。在本发明中主要指的是一个ID标识普遍重要性的度量。它可表示为：

其中，

ACF为平均类别频率(average classfrequency)，n为特征出现过的词频总数；LCF指出现过词频为f_j的特征t_i的类别总数；C表示类别的总数。

然后再计算CDF与AICF的乘积，得到CDF-AICF权重

对于类别c中词频为f_j的特征词t_i，我们采用Sigmoid函数

归一化到(0，1)。

某一特定用户的高ID标识频次，以及ID标识在整个用户集合汇总的低用户频率，可以产生出高权重的CDF-AICF。因此，CDF-AICF倾向于过滤掉垃圾ID标识，保留重要的ID标识。例如：过滤掉“NICKNAME”为“iphone”的映射关系。

步骤6：识别无效ID

对于僵尸用户(仅搜索、浏览，未曾下过订单的用户)，或者长期不用的设备，数据长期不更新后可能数据不准确。因此，对每个ID加入活跃度参数，一方面代表设备的活跃程度，一方面可以增强数据的准确性。

用户行为数据：代表了设备的活跃情况，数据入表活跃度(可以理解为“初始默认值”，以方便计算)设置为0，之后利用ID映射技术计算CDF-AICF，该值越大则对于用户j设备i越活跃。

设备活跃度指数：代表了设备活跃程度，指用户使用该设备的时间距离当前时间的差值的倒数，时间越是接近当前时间，则该设备活跃度程度越大，整理各个来源数据的该值(即用户使用该设备的时间距离当前时间的差值的倒数)形成集合，记为Period。

Δt＝t_{in_use}-t_current

其中，P(t)表示设备活跃度指数，t_{in_use}表示用户使用该设备的时间，t_current表示当前时间。

如果该ID标识在当前正在使用中，就会导致分母为零，因此一般情况下使用1+Δt作为分母。

活跃度参数：该参数受设备活跃度指数与CDF-AICF影响，其中，CDF-AICF描述了某段时间该设备属于某一用户的指示程度，为了突出时间序列的重要性，引入设备活跃度参数。

活跃度参数计算公式如下：

其中，F(active_ij)表示设备i对用户j的活跃度参数，g(x)表示Sigmoid函数，x为CDF与AICF的乘积。

由于本发明更注重身份ID标识的有效性，故选取比例或者绝对阈值进行截断得到排名靠前的身份ID标识判别为有效ID，其他为无效ID标识，可以根据具体应用加以调整。

步骤7：计算可信度

通过使用D-S证据理论的知识融合方法计算可信度。可信度是对识别框架中每一个主体的判决结果的可信程度，本发明中主要指移动设备对识别出的每个用户的信任程度。

所述计算可信度，包括：首先，进行融合问题的数学建模，即确定融合问题的识别框架，即{A,B,C,......，N}，其中A～N分别表示一个用户，是一个表示识别结果可能答案的互不相容事件的完备集合；其次，给出各种有效ID标识在识别框架上的基础概率分配m(A)、m(B)、m(C)、……m(N)；最后，进行知识的融合过程(即后文描述的有限个mass函数的Dempster合成规则)。

其中，设U为识别框架，则函数m:2^U→[0,1]满足下列条件：

(1)

(2)

时，称m(A)为A的基本赋值，A在本发明中主要指识别框架中的每一个主体，即识别的用户，m(A)表示对A的信任程度，也称为mass函数，即

式中：B_j(j＝1，2…n)和A_i(i＝1，2…q)分别为BPA函数(Basic ProbabilityAssignment Functions，基本概率分配函数)的焦元，n为有效ID个数，q为有效ID识别的用户个数；B_j∩A_i＝φ表示分配到空集上的信质；B_j∩A_i＝A表示分配到A的总信质。

上式中，m_j(A_i)值则为步骤6中第j个有效ID对于用户A的CDF-AICF权重值，即g(x)。

D-S证据理论的组合规则即有限个mass函数的Dempster合成规则，对于

识别框架U上的有限个mass函数m₁,m₂…m_n的Dempster合成规则为：

其中，K称为归一化因子，1-K即

反应了证据的冲突程度。

另，信任函数(Belief Function)：

Bel:2^U→[0,1]

表示A的全部子集的基本概率分配函数之和。信任函数的结果，则为对A的可信度。

似然函数(plausibility Function)：

pl(A)＝1-Bel(A)

表示不否认A的信任度，是所有与A相交的子集的基本概率分配之和。

步骤8：用户识别

本发明采用基于基本可信度分配的方法，确定如下4条目标判定规则：

1)目标类别A应具有最大的可信度；

2)目标类别A的可信度与其他类别的可信度之差必须大于某阈值λ₁，也即每一有效ID对所有不同类别的支持程度应保持足够大的差异；

3)不确定性概率必须小于某阈值λ₂，也即对目标类别证据的不确定性不能太大；

4)目标类别的可信度必须大于不确定性概率的阈值λ2，即对目标知道很少时，不能对其分类。

在身份融合中，通过多次试验统计得出，判决规则中的门限λ₁＝0.25，λ₂＝0.1。结合上述公式，可以融合一个用户的多种移动设备的身份标识进而准确的识别用户，在实际应用中该方法也得到了很好的市场和客户反馈。

基于同一发明构思，本发明另一实施例提供一种融合多种移动设备的身份识别系统，其包括：

进一步地，所述ID抽取模块包括：

数据采集子模块，负责利用无痕埋点获取不同来源的数据；

ID抽取子模块，负责对规范化处理后的数据抽取ID信息；

数据清洗子模块，负责对抽取的ID信息进行数据清洗。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种融合多种移动设备的身份识别方法，其特征在于，包括以下步骤：

5)根据有效ID的可信度和目标判定规则对用户进行识别。

2.根据权利要求1所述的方法，其特征在于，步骤1)包括：

1.1)利用无痕埋点获取不同来源的数据；

1.3)对规范化处理后的数据抽取ID信息。

3.根据权利要求2所述的方法，其特征在于，步骤1)还包括：对步骤1.3)抽取的ID信息进行数据清洗，以检测异常设备并初步过滤ID标识。

4.根据权利要求2所述的方法，其特征在于，步骤1.1)所述利用无痕埋点获取不同来源的数据包括：客户端SDK通过Http(s)/Tcp/Udp协议根据特定的网络环境采用特定的策略将数据发送到服务器，服务器将采集的数据实时写入Kafka分布式消息队列系统，同时获取由客户端SDK统一生成的用户标识，然后服务器将用户业务操作日志信息写入Kafka队列，最后将其写入到数据存储层HDFS，通过Hive或Spark进行数据的分析。

5.根据权利要求1所述的方法，其特征在于，步骤2)计算所述三元映射关系的权重，是采用CDF-AICF算法计算每种标识对不同用户的指示程度；其中：CDF为类别相关文档频率，即特征对类别的表现力，指某一个给定的ID标识与给定用户同时出现的文档频率，该频率越高则ID标识对用户的指示程度越高；AICF为平均逆类频率，即特征对类别的区分力，是一个ID标识普遍重要性的度量。

6.根据权利要求5所述的方法，其特征在于，步骤3)所述活跃度参数的计算公式为：

7.根据权利要求1所述的方法，其特征在于，步骤4)通过使用D-S证据理论的知识融合方法计算可信度，包括：首先，进行融合问题的数学建模，即确定融合问题的识别框架，即{A,B,C,......，N}，其中A～N分别表示一个用户，是一个表示识别结果可能答案的互不相容事件的完备集合；其次，给出各种有效ID标识在识别框架上的基础概率分配m(A)、m(B)、m(C)、……m(N)；最后，进行知识的融合过程。

8.根据权利要求1所述的方法，其特征在于，步骤5)所述目标判定规则包括：

5.1)目标类别应具有最大的可信度；

5.2)目标类别的可信度与其他类别的可信度之差必须大于某阈值λ1；

5.3)不确定性概率必须小于某阈值λ2；

5.4)目标类别的可信度必须大于不确定性概率的阈值λ2。

9.一种融合多种移动设备的身份识别系统，其特征在于，包括：

10.根据权利要求9所述的系统，其特征在于，所述ID抽取模块包括：

数据采集子模块，负责利用无痕埋点获取不同来源的数据；

ID抽取子模块，负责对规范化处理后的数据抽取ID信息；

数据清洗子模块，负责对抽取的ID信息进行数据清洗。